AI Challenger 2018 文本挖掘类竞赛相关解决方案及代码汇总

AINLP

AI Challenger 2018 已近尾声,各赛道top选手已经结束了代码核验,正在准备12月18、19日 AI Challenger 决赛答辩材料的路上。在本年度 AI Challenger 即将尘埃落定之时,这里整理一批目前网上可见的文本挖掘相关赛道的解决方案和代码,欢迎补充,同时感谢github,感谢各位开源的同学。

细粒度用户评论情感分析

在线评论的细粒度情感分析对于深刻理解商家和用户、挖掘用户情感等方面有至关重要的价值,并且在互联网行业有极其广泛的应用,主要用于个性化推荐、智能搜索、产品反馈、业务安全等。本次比赛我们提供了一个高质量的海量数据集,共包含6大类20个细粒度要素的情感倾向。参赛人员需根据标注的细粒度要素的情感倾向建立算法,对用户评论进行情感挖掘,组委将通过计算参赛者提交预测值和场景真实值之间的误差确定预测正确率,评估所提交的预测算法。

貌似是最火爆的一个赛道,Testa 提交队伍有468支,详细介绍请参考该赛道主页:https://challenger.ai/competition/fsauor2018

相关代码或解决方案:

TOP1. 冠军解决方案:
1) AI Challenger 2018 冠军 PPT 分享---细粒度情感分析赛道
2) 代码:https://github.com/chenghuige/wenzheng/tree/master/projects/ai2018/sentiment
阁子大神补充:开源了所有代码但是我最近没有时间整理流程 估计复现会有困难 仅供参考;我这个比较乱如果看的话 参考一下 algos tf模型 torch-algos pyt模型就可以了 fast elmo参考 torch-lm-train.py 我这边都是先生成tfrecord 那部分代码在prepare 需要先转简体 再分好词 整体复现比较麻烦 ;python path需要设置 下载路径utils 这样能找到下面的melt等路径

TOP2. 亚军解决方案:
AI Challenger2018情感分析赛道亚军PPT分享

TOP4. 决赛第4名解决方案:
AI Challenger 2018 第4名PPT分享---细粒度情感分析赛道

1. 官方baseline,基于SVM: sentiment_analysis2018_baseline
https://github.com/AIChallenger/AI_Challenger_2018/tree/master/Baselines/sentiment_analysis2018_baseline

2. 基于fastText的baseline: AI Challenger 2018 Sentiment Analysis Baseline with fastText
2.1 https://github.com/panyang/fastText-for-AI-Challenger-Sentiment-Analysis
2.2 文章:AI Challenger 2018 细粒度用户评论情感分析 fastText Baseline

3. 基于 SVM 的细粒度情感分析: https://github.com/scruel/sentiment_analysis

4. 第16名解决方案: https://github.com/xueyouluo/fsauor2018

5. 第17名解决方案:https://github.com/BigHeartC/Al_challenger_2018_sentiment_analysis

6. 基于Bert的尝试:https://github.com/brightmart/sentiment_analysis_fine_grain

7. ai challenger Competitions 1: Fine-grained Sentiment Analysis of User Reviews:
https://github.com/ShawnXiha/Fine-grained-Sentiment-Analysis-of-User-Reviews

8. 细粒度用户评论情感分析 (0.70201):https://github.com/pengshuang/AI-Comp
8.1 相关文章1:https://zhuanlan.zhihu.com/p/47207009
8.2 相关文章2:https://zhuanlan.zhihu.com/p/47278559

9. AI Challenger 细粒度用户评论情感分析线上0.62: https://zhuanlan.zhihu.com/p/44857751

观点型问题阅读理解

机器阅读理解涉及信息检索、文本匹配、语言理解、语义推理等不同层次的技术,对于复杂问题的处理甚至需要结合世界知识与常识知识,极具挑战。为了进一步推动机器阅读理解领域的技术发展,为研究者提供学术交流和模型评测的基准,本次竞赛将重点针对阅读理解中较为复杂的,需要利用整篇文章中多个句子的信息进行综合才能得到正确答案的观点型问题开展评测。本次竞赛将利用准确率进行评分,作为主要评价指标。组委会将通过客观指标,并结合答辩表现,综合评估参赛者的算法模型。

更多信息请参考官方主页:https://challenger.ai/competition/oqmrc2018

相关代码或解决方案:

1. 官方baseline: 基于pytorch实现论文《Multiway Attention Networks for Modeling Sentence Pairs》
opinion_questions_machine_reading_comprehension2018_baseline
https://github.com/AIChallenger/AI_Challenger_2018/tree/master/Baselines/opinion_questions_machine_reading_comprehension2018_baseline

2. 将baseline迁移到了python 3.6.6,修正了错误,改变参数最高accuracy为 0.70370:
https://github.com/dreamnotover/oqmrc2018

3. 第18名解决方案:https://github.com/PanXiebit/aic_rc

4. Testa 得分 73.2: https://github.com/antdlx/aic18_rc

5. ai challenger 2018 's final code: https://github.com/NoneWait/ai_challenge_2018_mrc

6. 基于capsule的观点型阅读理解模型: https://github.com/freefuiiismyname/capsule-mrc

7. AI Challenger 2018 阅读理解赛道代码分享:https://github.com/renjunxiang/oqmrc_2018

8. 奇点机智分享的可以在Testa上超越第一的BERT方案:BERT fine-tune 终极实践教程

9. RCZoo: 从Testa棒的第22名到Testb棒的第2名,作者用“RCZoo@https://github.com/lixinsu/RCZoo” 作为战队名打榜,不过RCZoo更像是一个通用的深度学习阅读理解、问答系统解决方案和工具箱,至于在该项赛事中的细节需要作者来揭晓:
Question answering, reading comprehension toolkit:https://github.com/lixinsu/RCZoo

10. AI Challenger 2018 观点型问题阅读理解 复赛第8名 解决方案 (8th place of AI Challenger 2018 MRC)
https://github.com/yuhaitao1994/AIchallenger2018_MachineReadingComprehension

11. 阁子大神的A棒21名解决方案:
https://github.com/chenghuige/wenzheng/tree/master/projects/ai2018/reader

英中文本机器翻译

英中机器文本翻译作为此次比赛的任务之一,目标是评测各个团队机器翻译的能力。本次机器翻译语言方向为英文到中文。测试文本为口语领域数据。参赛队伍需要根据评测方提供的数据训练机器翻译系统,可以自由的选择机器翻译技术。例如,基于规则的翻译技术、统计机器翻译及神经网络机器翻译等。本次竞赛将利用机器翻译的客观考核指标(BLEU、NIST score、TER)进行评分,BLEU得分会作为主要的机器评价指标。组委会将通过客观指标,并结合答辩表现,综合评估参赛者的算法模型。

更多请参考该赛道主页:https://challenger.ai/competition/ect2018

相关代码或解决方案:

Top1. 冠军解决方案分享:AI Challenger 2018 机器翻译参赛总结

1. 官方baseline,基于tensor2tensor:
https://github.com/AIChallenger/AI_Challenger_2018/tree/master/Baselines/english_chinese_machine_translation_baseline

2. TestB第10名同学的分享:AI Challenger_2018英中文本机器翻译_参赛小结
https://zhuanlan.zhihu.com/p/50153808
相关代码:https://github.com/gzhcv/AIChallenger2018_English_Chinese_Machine_Translation

3. Document-Transformer
这次英中机器翻译比赛提供了上下文(Document)语料,我一直没有找到合适的解决方案,直到看到了清华、搜狗和苏州大学近期刚刚出品的这个论文和工具包,也许这才是本次比赛的一个解决秘钥,感兴趣的同学可以一试:

代码:https://github.com/Glaceon31/Document-Transformer
论文:Improving the Transformer Translation Model with Document-Level Context

4. 决赛第5名分享:
AI Challenger 2018 简记

持续更新,欢迎大家补充,也欢迎关注我们的微信公众号:AINLP

注:原创文章,转载请注明出处及保留链接“我爱自然语言处理”:http://www.52nlp.cn

本文链接地址:AI Challenger 2018 文本挖掘类竞赛相关解决方案及代码汇总 http://www.52nlp.cn/?p=10998

一个能聊天有趣有AI的NLP公众号

NLPJob

AI Challenger 2018 文本挖掘类竞赛相关解决方案及代码汇总》上有9条评论

  1. 杨阳

    有do something团队的源码嘛,想学习一下。网上一直找不到。可以的话邮箱共享一份,谢谢博主大大了

    [回复]

    52nlp 回复:

    抱歉,没有

    [回复]

  2. 薛颖斌

    您好 我想问下大神做的基于 SVM 的细粒度情感分析 处理后的数据 有吗?能发给我一份吗?

    [回复]

    52nlp 回复:

    印象SVM是官方给得baseline,我跑了之后效果不好就删了

    [回复]

发表评论

电子邮件地址不会被公开。 必填项已用*标注