分类目录归档:AINLP

AINLP年度阅读收藏清单

感谢大家的支持,祝大家新年快乐!今天花了大部分时间从前往后分类整理了一下阅读清单,文末附上很多资源的关键词索引,欢迎收藏和分享。AINLP致力于做一个有趣有AI的自然语言处理社区,欢迎关注:

如何学习NLP和NLP相关资源
如何学习自然语言处理:一本书和一门课
如何学习自然语言处理:NLP领域经典《自然语言处理综论》英文版第三版更新
2019斯坦福CS224n深度学习自然语言处理课程视频和相关资料分享
CS224N 2019最全20视频分享:斯坦福大学深度学习自然语言处理课程资源索引
李纪为博士:初入NLP领域的一些小建议
老宋同学的学习建议和论文:听说你急缺论文大礼包?
从老宋的角度看,自然语言处理领域如何学习?
刘知远老师NLP研究入门之道:NLP推荐书目
NLP研究入门之道:自然语言处理简介
NLP研究入门之道:走近NLP学术界
NLP研究入门之道:如何通过文献掌握学术动态
NLP研究入门之道:如何写一篇合格的学术论文
NLP研究入门之道:本科生如何开始科研训练
自然语言理解难在哪儿?
好的研究想法从哪里来
你是如何了解或者进入NLP这个领域的?
NLP is hard! 自然语言处理太难了系列

腾讯词向量和相似词、相似度、词语游戏系列
相似词查询:玩转腾讯 AI Lab 中文词向量
玩转腾讯词向量:词语相似度计算和在线查询
腾讯词向量实战:通过Annoy进行索引和快速查询
玩转腾讯词向量:Game of Words(词语的加减游戏)
词向量游戏:梅西-阿根廷+葡萄牙=?
腾讯 800 万中文词向量 API Demo 搭建

NLP相关工具及在线测试(公众号对话测试)
五款中文分词工具在线PK: Jieba, SnowNLP, PkuSeg, THULAC, HanLP
中文分词工具在线PK新增:FoolNLTK、LTP、StanfordCoreNLP
Python中文分词工具大合集:安装、使用和测试
八款中文词性标注工具使用及在线测试
百度深度学习中文词法分析工具LAC试用之旅
来,试试百度的深度学习情感分析工具
AINLP公众号新增SnowNLP情感分析模块

自动对联及作诗机
风云三尺剑,花鸟一床书---对联数据集和自动对联机器人
自动对联活动获奖结果以及机器对联赏析
"自动作诗机"上线,代码和数据都是公开的

夸夸聊天机器人及其他技能
一行Python代码实现夸夸聊天机器人
为了夸夸聊天机器人,爬了一份夸夸语料库
夸夸聊天机器人升级:从随机到准个性化
来,试试语音(识别)聊天(机器人)
来,试试成语接龙
推荐一份中文数据,来试试汉字、词语、成语、歇后语在线检索
AINLP公众号新增"狗屁不通文章生成器"接口
来,试试彩虹屁生成器

BERT及预训练模型相关文章
BERT相关论文、文章和代码资源汇总

张俊林博士系列解读:
放弃幻想,全面拥抱Transformer:自然语言处理三大特征抽取器(CNN/RNN/TF)比较
预训练在自然语言处理的发展: 从Word Embedding到BERT模型
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
Bert时代的创新(应用篇):Bert在NLP各领域的应用进展
效果惊人的GPT 2.0模型:它告诉了我们什么
XLNet:运行机制及和Bert的异同比较

高开远同学系列:
BERT源码分析PART I
BERT源码分析PART II
BERT源码分析PART III
站在BERT肩膀上的NLP新秀们(PART I)
站在BERT肩膀上的NLP新秀们(PART II)
站在BERT肩膀上的NLP新秀们(PART III)
Nvidia League Player:来呀比到天荒地老
Dive into BERT:语言模型与知识
当BERT遇上知识图谱
中文预训练模型ERNIE超详细使用指南

老宋的茶书会系列:
听说你还没读过 Bert 源码?
Bert 之后:预训练语言模型与自然语言生成
就最近看的paper谈谈预训练语言模型发展
Bert 改进: 如何融入知识
ALBERT 告诉了我们什么?

太子長琴同学系列:
BERT论文笔记
XLNet 论文笔记
ERNIE Tutorial(论文笔记 + 实践指南)

张贵发同学系列:
一步步理解BERT
最新语言表示方法XLNet
深度剖析知识增强语义表示模型——ERNIE

艾力亚尔同学的文章:
NLP - 基于 BERT 的中文命名实体识别(NER)
NLP - BERT/ERNIE 文本分类和部署

SunYanCN同学的文章:
详解BERT阅读理解
简单高效的Bert中文文本分类模型开发和部署

李如同学的文章:
【NLP】ALBERT粗读

其他相关:
BERT 的演进和应用
吴金龙博士的解读:BERT时代与后时代的NLP
谷歌BERT模型深度解析
BERT_Paper_Chinese_Translation: BERT论文中文翻译版
【Github】BERT-train2deploy:BERT模型从训练到部署
BERT/注意力机制/Transformer/迁移学习NLP资源大列表:awesome-bert-nlp
NLP中的词向量对比:word2vec/glove/fastText/elmo/GPT/bert
中文预训练ALBERT模型来了:小模型登顶GLUE,Base版模型小10倍速度快1倍
超小型bert横空出世:训练和预测提速10倍
RoBERTa for Chinese:大规模中文预训练RoBERTa模型
中文语言理解基准测评(chineseGLUE)来了,公开征集数据集进行中
最简单的BERT模型调用方法
【Github】BERT-NER-Pytorch:三种不同模式的BERT中文NER实验

中文分词
中文分词文章索引和分词数据资源分享
自然语言理解太难了之中文分词八级测试
中文分词工具评估:chinese-segmentation-evaluation
简单有效的多标准中文分词

命名实体识别
【论文笔记】命名实体识别论文
一文详解深度学习在命名实体识别(NER)中的应用

关系提取
关系提取简述
【论文】Awesome Relation Classification Paper(关系分类)(PART I)
【论文】Awesome Relation Classification Paper(关系分类)(PART II)
【论文】Awesome Relation Extraction Paper(关系抽取)(PART III
【论文】Awesome Relation Extraction Paper(关系抽取)(PART IV)
【论文】Awesome Relation Extraction Paper(关系抽取)(PART V)

文本分类/情感分析
几个可作为Baseline的文本分类模型
清华THUNLP多标签分类论文笔记:基于类别属性的注意力机制解决标签不均衡和标签相似问题
【论文串烧】基于特定实体的文本情感分类总结(PART I)
基于特定实体的文本情感分类总结(PART II)
基于特定实体的文本情感分类总结(PART III)
深度学习实践:从零开始做电影评论文本情感分析
5个例子,秒懂分类算法(达观数据王子豪)
NLP - 15 分钟搭建中文文本分类模型

文本摘要
真正理解指针生成网络——Summarization with Pointer-Generator Networks
抛开模型,探究文本自动摘要的本质——ACL2019 论文佳作研读系列
文本自动摘要任务的“不完全”心得总结
BottleSum——文本摘要论文系列解读

知识图谱
“原子”因果常识图谱
知识图谱存储与查询:自然语言记忆模块(NLM)
知识图谱从哪里来:实体关系抽取的现状与未来

对话系统/对话系统/聊天机器人
生成式对话seq2seq:从rnn到transformer
QA问答系统中的深度学习技术实现
从产品完整性的角度浅谈chatbot
来谈谈那些很棒的检索式Chatbots论文(一)
来谈谈那些很棒的检索式Chatbots论文(二)
Rasa介绍:对话系统、产品与技术
基于RASA的task-orient对话系统解析(一)
基于RASA的task-orient对话系统解析(二)——对话管理核心模块
基于RASA的task-orient对话系统解析(三)——基于rasa的会议室预定对话系统实例
Rasa入坑指南一:初识Rasa
Rasa 入坑指南二:基于 Rasa 构建天气查询机器人
做对话机器人的各家企业,都在关注哪些问题
从互联网爬虫、自动驾驶到对话机器人,什么是Semantic(语义)?

阅读理解
阅读理解之(bidaf)双向注意力流网络
陈丹琦博士论文翻译:神经阅读理解与超越(Neural Reading Comprehension and Beyond)

机器翻译
Philipp Koehn大神的神经网络机器翻译学习资料:NMT Book
清华大学NLP组整理的机器翻译论文阅读清单

文本生成
电脑也能写出连贯的文章吗?

推荐系统
当我们谈论“推荐系统”时在谈论什么?
推荐系统中的矩阵分解技术
受限玻尔兹曼机原理及在推荐系统中的应用
推荐系统召回四模型之:全能的FM模型
推荐系统召回四模型之二:沉重的FFM模型
推荐系统技术演进趋势:从召回到排序再到重排
【Github】深度学习在推荐系统中的应用及论文小结

论文笔记
用腻了 CRF,试试 LAN 吧?
Meta-Learning:Learning to Learn and Applications
可解释性论文阅读笔记1-Tree Regularization
使用Python复现SIGKDD2017的PAMAE算法(并行k-medoids算法)

竞赛相关
AI Challenger 2017 奇遇记
AI Challenger 2018 简记
AI Challenger 2018 文本挖掘类竞赛相关代码及解决方案汇总
AI Challenger 2018 机器翻译冠军参赛总结
AI Challenger_2018英中文本机器翻译_参赛小结
AI Challenger 2018 冠军 PPT 分享---细粒度情感分析赛道
AI Challenger 2018 冠军代码分享---细粒度情感分析赛道
AI Challenger 2018 第4名PPT分享---细粒度情感分析赛道
提供一个10分钟跑通 AI Challenger 细粒度用户评论情感分析的fastText Baseline
FlyAI算法竞赛平台初体验
法研杯要素识别第二名方案总结:多标签分类实践与效果对比
2019法研杯比赛--阅读理解任务第4名团队参赛总结
法研杯cail2019阅读理解比赛记录(第5名团队分享)
【Github】2019年达观信息提取比赛第九名代码和答辩PPT
CCF BDCI2019 金融信息负面及主体判定 冠军方案解析

求职相关
2021 校招算法岗, 劝退还是继续
EE转CS,拿了多个行业offer,最终选择NLP算法岗的同学的秋招总结
14种模式解决面试算法编程题(PART I)
14种模式解决面试算法编程题(PART II)

开源项目及资源
中文自然语言处理相关的开放任务,数据集,以及当前最佳结果
用于中文闲聊的GPT2模型:GPT2-chitchat
中文歌词生成,缺不缺语料?这里有一个开源项目值得推荐
深度学习资源大列表:关于深度学习你需要了解的一切
funNLP: 从文本中抽取结构化信息的超级资源包
NLP 2018 Highlights:2018自然语言处理技术亮点汇总
NLP Chinese Corpus项目:大规模中文自然语言处理语料
Awesome-Chinese-NLP:中文自然语言处理相关资料
Jiagu:中文深度学习自然语言处理工具
上百种预训练中文词向量:Chinese-Word-Vectors
lazynlp:构建大规模语料库的"懒人"工具箱
关于聊天机器人,这里有一份中文聊天语料库资源
复旦NLP实验室NLP上手教程
AI算法工程师手册
NLP学习新资料:旧金山大学2019夏季自然语言处理课程
中文自然语言处理数据集:ChineseNLPCorpus
【Github】nlp-journey: NLP相关代码、书目、论文、博文、算法、项目资源链接
NeuralNLP-NeuralClassifier:腾讯开源深度学习文本分类工具
【Github】Chinese-poetry: 最全中华古诗词数据库
【Github】ML-NOTE:注重数学推导的机器学习算法整理
【Github】All4NLP:自然语言处理相关资源整理
【Github】GPT2-Chinese:中文的GPT2训练代码
【Github】nlp-tutorial:TensorFlow 和 PyTorch 实现各种NLP模型
【Github】ML-NLP:机器学习、NLP面试中常考到的知识点和代码实现
【Github】Data Competition Top Solution: 数据竞赛top解决方案开源整理
【Github】nlp-roadmap:自然语言处理路相关路线图(思维导图)和关键词(知识点)
【Github】TextCluster:短文本聚类预处理模块 Short text cluster

其他相关
认真推荐一份深度学习笔记:简约而不简单
神经网络佛系炼丹手册
通过Docker部署深度学习项目环境
GPU 显存不足怎么办?
AINLP-DBC GPU 使用体验指南
200行写一个自动微分工具
定个小目标,发它一个亿条微博语料
推荐两份NLP读书笔记和一份NLTK书籍代码中文注释版
微软深度学习入门教程更新
Gilbert Strang教授的MIT公开课:数据分析、信号处理和机器学习中的矩阵方法
Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱
如何计算两个文档的相似度一
如何计算两个文档的相似度二
如何计算两个文档的相似度三
Hands-on Machine Learning with Scikit-Learn and TensorFlow 学习笔记
感知智能到认知智能中对知识的思考
polyglot:Pipeline 多语言NLP工具
A/B测试的数学原理与深入理解
详解TensorFlow™ GPU 安装
fastText原理及实践
中国科学技术大学计算机学院课程资源:USTC-CS-Courses-Resource
那些值得推荐和收藏的线性代数学习资源

资源关键字
AINLP聊天机器人除了日常搭讪外,还负责回复用户的日常查询,所以为一些关注度比较高的文章和NLP资源做了关键字和索引,分散在以前的一些文章介绍里,这里再统一贴出来:

1、关注AINLP公众号,后台回复 “文章、历史消息、历史、history、存档” 任一关键字获取历史文章存档消息。

2、回复“正态分布,rickjin, 正态分布前世今生, 正态分布文章, 正太分布, 正太, 正态”任一关键字获取Rickjin正态分布前世今生系列:

正态分布系列文章索引

3、回复“nlp, 自然语言处理,学习自然语言处理,学习nlp, 如何学习nlp,如何学习自然语言处理” 任一关键字获取文章:如何学习自然语言处理

4、回复"slp" 获取:斯坦福NLP书籍和课程网盘链接和密码

5、回复"slp3" 获取:自然语言处理综论英文版第三版及斯坦福NLP课程链接和密码

6、回复"ng" 获取:Andrew Ng老师课程相关资料链接和密码

7、回复"aic" 获取:AI Challenger 2018 文本挖掘类竞赛相关代码及解决方案汇总
博客版本持续更新,欢迎提供线索:http://www.52nlp.cn/?p=10998

8、回复"bert" 获取:BERT相关论文、文章和代码资源汇总
博客版本持续更新:http://www.52nlp.cn/?p=10870

9、回复"HMM" 获取:HMM学习最佳范例全文PDF
HMM学习最佳范例全文PDF文档及相关文章索引

10、回复"Hinton" 获取:面向机器学习的神经网络公开课视频及课件
Geoffrey Hinton 大神面向机器学习的神经网络公开课及相关视频资料

11、回复"NLTK" 获取: NLTK相关资料
Python自然语言处理工具NLTK学习导引及相关资料

12、回复"youhua"获取:优化相关资料
凸优化及无约束最优化相关资料

13、回复"xiandai"获取:线性代数相关资料
那些值得推荐和收藏的线性代数学习资源

14、回复"cs224n"获取:深度学习自然语言处理课程最新视频:
2019斯坦福CS224n深度学习自然语言处理课程视频和相关资料分享
斯坦福大学深度学习自然语言处理课程CS224N 2019 全20个视频分享

15、回复"kuakua"获取:夸夸语料库(500条)
为了夸夸聊天机器人,爬了一份夸夸语料库

16、回复"fenci"获取:中文分词相关资源
中文分词文章索引和分词数据资源分享

17、回复”tongjixuexi”获取:李航老师统计学习方法第一版PPT(清华大学深圳研究生院袁春老师精心制作)
李航老师《统计学习方法(第二版)》出版及统计学习方法第一版PPT课件下载

18、回复"nmt"获取:Philipp Koehn大神的神经网络机器翻译学习资料:NMT Book

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP君微信(id:AINLP2),备注工作/研究方向+加群目的。

征稿启示| 让更多的NLPer看到你的文章

认真的给AINLP公众号征个稿,之前在AINLP技术交流群分享过,现在希望更多有技术写作习惯的同学看到。

如果你平时有写技术文章的习惯并且愿意分享给更多NLPer看到,文章已经发布或者计划发布在你个人的互联网上的任何地方,譬如独立博客、知乎专栏、Github、各类博客平台,欢迎投稿给AINLP公众号,自然语言处理、机器学习、深度学习相关即可,我们会做初步的判断是否合适。

如果OK并且授权AINLP公众号原创标志,我们愿意给予一些物质感谢,包括百元稿费(或等价书籍)+ 价值20个小时1080TI的GPU云算力(也可以使用其他机器例如2080或者2080TI算力)+知识星球"AINLP芝麻街"的嘉宾身份。

如果不授权AINLP公众号原创标志,只是希望能分享给更多的人,也同样欢迎,包括或者不限于已经发布在个人公众号的NLP相关文章,其他地方的技术文章,Github个人相关项目,欢迎自荐,我们按转载模式进行操作。

关于原创标志,这是公众号保护技术原创文章的一个很好的模式,形式上就是在作者前加个原创,例如:

关于AINLP的GPU云服务,请参考:

AINLP-DBC GPU 云服务器租用平台建立,价格足够便宜

关于AINLP芝麻街,请参考:

我们建了一个免费的知识星球:AINLP芝麻街,欢迎来玩,期待一个高质量的NLP问答社区

最后,常欢迎大家来投稿,当然,我们也非常鼓励大家进行技术写作,写作能力是程序之外非常棒的一个软技能。

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP君微信(id:AINLP2),备注工作/研究方向+加群目的。

AINLP公众号新增"彩虹屁生成器"

前几天,看到了一条很有意思的微博:

整理了一些自动生成器,无聊的时候可以玩儿一天

‣ 马丁路德骂人生成器,收集了他作品里所有的脏话,连出处都有。点击即可感受辱骂
O网页链接

‣ 狗屁不通文章生成器,写稿必备
O网页链接

‣ 彩虹屁生成器,夸人难手可🐎住
O网页链接

‣ 特殊字体生成器,可以将文字生成其他有趣字体
O网页链接

‣ 诺基亚短信图片生成器:O网页链接

‣ 记仇表情包生成器:O网页链接

‣ 爱豆翻牌生成器:O网页链接

‣ 颜文字生成器:O顔文字作るよ(  ゚д゚ )

‣ Bgm自动生成器:O网页链接

‣ 骂人宝典生成器:O网页链接

‣ 在线表情包制作器:O网页链接

‣ 藏头诗生成器:O网页链接

‣ cp短打生成器,我就没打开过...你们可以试试
O网页链接

因为最近喜欢给AINLP公众号后台(对话)加一些小东西,所以就一个一个的试了一下,看看有没有可能加到AINLP公众号后台的,最后锁定“彩虹屁生成器”。不过在这之前,特意搜了一下什么是彩虹屁,以下来自百度百科的解释:

彩虹屁,网络流行语,饭圈常用语,最早流行起来的时间是在2017年。意思为粉丝们花式吹捧自己的偶像,浑身是宝,全是优点,字面意思为就连偶像放屁都能把它出口成章面不改色的吹成是彩虹。

词语来源:
该词最早出自于2017年的追星女孩,也就是所谓的饭圈,堪称是追星女孩的必备素养。

发展经过:
该词在2017年就火了,由于《镇魂》这部网络剧,又一次火了,而且还做出了很多各式各样的表情包。就好比要夸一个人,但是没有词汇去夸,那么“彩虹屁”就是一个非常棒的替代词。

引用示例
该词就是模仿韩国的用语,用词语气非常的夸张,常见的饭圈用语,就是说偶像放一个屁,就能比喻成彩虹。追星女孩她们眼中的偶像是非常棒的,所以怎么看都是好的。

上面微博提到的工具里面记仇表情包生成器、彩虹屁生成器、骂人宝典生成器由 @直播点吧 制作 ,我在调研过程发现作者提供API接口,所以就私信问了一下授权,@直播点吧 很客气,让我发邮件给 shadiaoapp@gmail.com 就可以了,所以发了封邮件,作者回复很迅速,给设置了来源白名单,并且还给了我一份来源于网友的彩虹屁数据,例如:

弱水三千我只取一瓢,你就是那个瓢
想把今天的白云寄给你,想把今天的皑皑白雪寄给你,想把我寄给你。
如果你来了 春天就可以 不用来了
我算不上低调 但也不喜欢炫耀 却想让每个认识我的人都知道你。
你就像⻜机、火车一样;你晚了,我等你;我晚了,你就⾛了。
螃蟹在剥我的壳,笔记本在写我;漫天的我落在枫叶雪花上;而你在想我。
如果你的⼀⽣需要有⼈捧在手上 那个⼈只能是我 必须是我
喜欢看你认真的样⼦,喜欢听你的声⾳,忍不住想要永远拥有你的微笑~
关于想你这件事 躲得过⼈潮汹涌的街 却躲不过四下⽆⼈的夜
在这什么都善变的⼈间 我想陪你一起看一看这永远有多远

有了这些条件,就可以很快的给AINLP添加"彩虹屁生成器"功能了,感兴趣的同学可以直接通过AINLP公众号测试,只要问句中包含“彩虹屁”三个字即可:

本来想和夸夸聊天机器人放在一起的,但是读着貌似不是夸人的感觉,所以最终还是单独处理了,感兴趣的同学可以关注AINLP公众号,后台对话直接测试:

注:原创文章,转载请注明出处及保留链接“我爱自然语言处理”:http://www.52nlp.cn

本文链接地址:AINLP公众号新增"彩虹屁生成器" http://www.52nlp.cn/?p=12419

AINLP公众号增加"狗屁不通文章生成器"

最近比较火的一个Github项目是:狗屁不通文章生成器(https://github.com/menzi11/BullshitGenerator),虽然和自然语言生成有点关系,但是代码其实和自然语言处理基本无关,或者说作者用了一点trick和规则,不过项目本身还是很有意思的:

BullshitGenerator

本项目为python3版本, 还有由suulnnka修改在线版, 使用更加方便: https://suulnnka.github.io/BullshitGenerator/index.html

下一步计划:

防止文章过于内容重复
加入更多啰嗦话.
加入马三立<开会迷>里的内容
加入手写体直接渲染出图片的功能(仅仅用于测试本人的打印机是否工作正常, 请勿做它用).
关于Pull requests:
鄙人每个requests都会仔细阅读, 但因近期事情较多, merge未必及时, 毕竟是业余项目, 请大家见谅. 如果未来实在更新不及时, 也欢迎有志之士替代本人继续本项目.

关于中文变量名:
平时撸码鄙人是不写中文变量名的, 本项目中的中文变量名只是最开始瞎写的时候边写语料边写代码时懒得切英文输入法了. 不过既然如此就保持吧!

关于生成算法
鄙人才疏学浅并不会任何自然语言处理相关算法. 而且目前比较偏爱简单有效的方式达到目的方式. 除非撞到了天花板, 否则暂时不会引入任何神经网络等算法. 不过欢迎任何人另开分支实现更复杂, 效果更好的算法. 不过除非效果拔群, 否则鄙人暂时不会融合.

这套代码不复杂,我把这套“狗屁不通文章生成器”对接到AINLP公众号后台了,做了一点修改,并且将生成字数限制在500字了,方便微信查看,感兴趣的同学可以关注AINLP,对话回复“狗屁不通文章:主题句”:

例如我输入“狗屁不通文章:自然语言处理”,生成了这样一段废话:

吉姆·罗恩在不经意间这样说过,要么你主宰生活,要么你被生活主宰。这句话把我们带到了一个新的维度去思考这个问题: 不难发现,在当今社会中,越来越多的人开始自然语言处理。自然语言处理,发生了会如何,不发生又会如何。我们都知道,只要有意义,那么就必须慎重考虑。了解清楚自然语言处理到底是一种怎么样的存在,是解决一切问题的关键。自然语言处理的发生,到底需要如何做到,不自然语言处理的发生,又会如何产生。德国曾经说过,只有在人群中间,才能认识自己。我希望诸位也能好好地体会这句话。 那么,总结地来说,这种事实对本人来说意义重大,相信对这个世界也是有一定意义的。我强烈建议自然语言处理,对我个人而言,自然语言处理不仅仅是一个重大的事件,还可能会改变我的人生。自然语言处理的发生,到底需要如何做到,不自然语言处理的发生,又会如何产生。我强烈建议自然语言处理,我们一般认为,抓住了问题的关键,其他一切就会迎刃而解。问题的关键究竟为何?这种事实对本人来说意义重大,相信对这个世界也是有一定意义的。要想清楚,自然语言处理,到底是一种怎么样的存在。马克思曾经说过,一切节省,归根到底都归结为时间的节省。这句话语虽然很短,但令我浮想联翩。 屠格涅夫曾经提到过,凡事只要看得淡些,就没有什么可忧虑的了;只要不因愤怒而夸大事态,就没有什么事情值得生气的了。我希望诸位也能好好地体会这句话。

微信公众号对话是这样的:

注:原创文章,转载请注明出处及保留链接“我爱自然语言处理”:http://www.52nlp.cn

本文链接地址:AINLP公众号增加"狗屁不通文章生成器" http://www.52nlp.cn/?p=12405

200行写一个自动微分工具

简介

机器学习工具包(PyTorch/TensorFlow)一般都具有自动微分(Automatic Differentiation)机制,微分求解方法包括手动求解法(Manual Differentiation)、数值微分法(Numerical Differentiation)、符号微法(Symbolic Differentiation)、自动微分法(Automatic Differentiation),具体的详细介绍可以参见自动微分(Automatic Differentiation)简介,这里主要说一下自动微分法的实现。

自动微分法实现

github地址:https://github.com/tiandiweizun/autodiff

git上有不少自动微分的实现,如autograd等,这里还有一个特别简单的AutodiffEngine更适合作为教程,但AutodiffEngine是静态图,整个过程对于初学者还是有点复杂的,主要是不直观,于是动手autodiff写了一个简单的动态图的求导,里面的大部分算子的实现还是参照AutodiffEngine的。

设计:其实主要是2个类,一个类Tensor用于保存数据,另一个类OP支持forward和backward,然后各种具体的运算类,如加减乘除等继承OP,然后实现具体的forward和backward过程

过程:分为forward和backward两个过程,forward从前往后计算得到最终的输出,并返回新的tensor(如下图中的v1),新的tensor保存通过哪些子tensor(v-1),哪个具体的算子(ln)计算得到的(计算图),backward按照计算图计算梯度,并赋值给对应的子tensor(v-1)

实现:

先贴一点代码

class Tensor:
    def __init__(self, data, from_tensors=None, op=None, grad=None):
        self.data = data  # 数据
        self.from_tensors = from_tensors  # 是从什么Tensor得到的,保存计算图的历史
        self.op = op  # 操作符运算
        # 梯度
        if grad:
            self.grad = grad
        else:
            self.grad = numpy.zeros(self.data.shape) if isinstance(self.data, numpy.ndarray) else 0
    
    def __add__(self, other):
        # 先判断other是否是常数,然后再调用
        return add.forward([self, other]) if isinstance(other, Tensor) else add_with_const.forward([self, other])

    def backward(self, grad=None):
        # 判断y的梯度是否存在,如果不存在初始化和y.data一样类型的1的数据
        if grad is None:
            self.grad = grad = numpy.ones(self.data.shape) if isinstance(self.data, numpy.ndarray) else 1
        # 如果op不存在,则说明该Tensor为根节点,其from_tensors也必然不存在,否则计算梯度
        if self.op:
            grad = self.op.backward(self.from_tensors, grad)
        if self.from_tensors:
            for i in range(len(grad)):
                tensor = self.from_tensors[i]
                # 把梯度加给对应的子Tensor,因为该Tensor可能参与多个运算
                tensor.grad += grad[i]
                # 子Tensor进行后向过程
                tensor.backward(grad[i])

    # 清空梯度,训练的时候,每个batch应该清空梯度
    def zero_gard(self):
        self.grad = numpy.zeros(self.data.shape) if isinstance(self.data, numpy.ndarray) else 0
class OP:
    def forward(self, from_tensors):
        pass

    def backward(self, from_tensors, grad):
        pass


class Add(OP):
    def forward(self, from_tensors):
        return Tensor(from_tensors[0].data + from_tensors[1].data, from_tensors, self)

    def backward(self, from_tensors, grad):
        return [grad, grad]


add = Add()

这里以加法为例,讲一下具体的实现。

Tensor类有四个属性,分别用于保存数据、子Tensor、操作符、梯度,OP类有两个方法,分别是forward和backword,其中Add类继承OP,实现了具体的forward和backword过程,然后Tensor重载了加法运算,如果是两个Tensor相加,则调用Add内部的forward。

x1_val = 2 * np.ones(3)
x2_val = 3 * np.ones(3)
x1 = Tensor(x1_val)
x2 = Tensor(x2_val)
# x1+x2 调用了Add的forward方法,并用[5,5,5]、x1与x2、加法操作构造新的Tensor,然后赋值给y
y = x1 + x2
assert np.array_equal(y.data, x1_val + x2_val)

backward过程先是计算梯度,然后把梯度赋值给各个子Tensor

# 判断梯度是否存在,此时不存在则初始化为[1,1,1]
# 调用Add的backward计算得到梯度[[1,1,1],[1,1,1]]
# 把梯度累加给对应的子Tensor,并调用x1和x2的backward
# 由于此时梯度存在,则不需要初始化
# 由于x1和x2无op和from_tensors,停止并退出
y.backward()
assert np.array_equal(x1.grad, np.ones_like(x1_val))
assert np.array_equal(x2.grad, np.ones_like(x2_val))

add_with_const和其他运算符参见代码

利用现有的自动求导来训练一个线性回归模型,绝大部分代码来自于AutodiffEngine里面的lr_autodiff.py,其中gen_2d_data方法用于生成数据,每个样例有3维,其中第一维是bias,test_accuracy判断sigmoid(w*x)是否大于0.5来决定分类的类别,并与 y进行对比计算准确率。

我这里仅修改了auto_diff_lr方法,去掉了静态图里面的逻辑,并换成Tensor来封装。

下图为训练日志和训练结果

推荐两份NLP读书笔记和一份NLTK书籍代码中文注释版

推荐一下AINLP技术交流群里 zYx.tom 同学贡献给大家的两份NLP读书笔记和一份中文注释代码,包括:

《自然语言处理综论》中文版第二版学习笔记

《计算机自然语言处理》学习笔记

《Python自然语言处理》学习代码的中文注释版本:NLTK-Python-CN

作者博客:https://zhuyuanxiang.github.io/

由作者授权,我把2份pdf文件放到github上了,感兴趣的同学可以直接在github上下载:

https://github.com/panyang/AINLP-Resource/tree/master/zYx.Tom

自然语言处理综论》是NLP领域的经典著作,第一版、第二版国内都有中文翻译版,目前英文版第三版《Speech and Language Processing (3rd ed. draft)》正在撰写中,已完结的章节草稿可以直接从slp3官网下载:https://web.stanford.edu/~jurafsky/slp3/ ,加了很多深度学习自然语言处理的相关章节,这里引用李纪为博士《初入NLP领域的一些小建议》中的一段描述,供计划学习这本书的同学参考:

了解NLP的最基本知识:Jurafsky和Martin的Speech and Language Processing是领域内的经典教材,里面包含了NLP的基础知识、语言学扫盲知识、基本任务以及解决思路。阅读此书会接触到很多NLP的最基本任务和知识,比如tagging, 各种parsing,coreference, semantic role labeling等等等等。这对于全局地了解NLP领域有着极其重要的意义。书里面的知识并不需要烂熟于心,但是刷上一两遍,起码对于NLP任务有基本认识,下次遇到了知道去哪里找还是非常有意义的。

《计算机自然语言处理》是哈工大王晓龙、关毅两位老师的中文NLP著作,我在刚入门NLP的时候读过,但是已经很久了,这本书在我早期的博文里记述过:《几本自然语言处理入门书》,唯一的印象就是第一次了解到本科母校HIT在中文NLP领域是非常厉害的。这本书貌似已经无法在电商网站买到,感兴趣的同学可以看看zYx.Tom同学的学习笔记。

NLTK是经典的Python NLP工具包,配套的书籍《Natural Language Processing with Python》目前也有了中文翻译版本,感兴趣的同学可以参考zYx.Tom同学的这份《Python自然语言处理》学习代码的中文注释版本:NLTK-Python-CN

最后,欢迎大家关注AINLP公众号,加入AINLP技术交流群,一起维护一个NLP技术交流环境。

AINLP公众号对话接口新增成语接龙

成语接龙很有意思,原本计划找一些成语语料自己做一个,不过Google一圈后发现Github上有一个现成的项目:IdiomsSolitaire

Github链接:https://github.com/WangYihang/IdiomsSolitaire

这个项目自带2万多条成语数据,用法也很简单:

API Usage

>>> import IdiomsSolitaire
>>> IdiomsSolitaire.init()
>>> print IdiomsSolitaire.guess("一心一意")

Script Usage

# Install it first
pip install -r requirements.txt
# Use it in your termianl
$ python IdiomsSolitaire.py
Usage : 
        python IdiomsSolitaire.py [Idioms]
Example : 
        python IdiomsSolitaire.py '一心一意'
Author : 
        WangYihang <wangyihanger@gmail.com>
$ python IdiomsSolitaire.py '一心一意'
[+] Init finished! [23594] words.
[一语破的] : [一句话就击中要害。的,箭靶的中心,比喻要害之处。]
$ python IdiomsSolitaire.py '一心一意'
[+] Init finished! [23594] words.
[一至於此] : [竟到如此地步。]

所以很快把这个接口接入了AINLP的对话功能中,感兴趣的同学可以关注AINLP公众号直接测试:

也可以直接尝试语音输入,不过个别地方识别确实有点歪打正着:

最后,欢迎关注我们的公众号AINLP,可以对对联,自动作诗,查询相似词,玩词语加减游戏等:

注:原创文章,转载请注明出处及保留链接“我爱自然语言处理”:http://www.52nlp.cn

本文链接地址:AINLP公众号对话接口新增成语接龙 http://www.52nlp.cn/?p=12067

欢迎关注AINLP:一个有趣有AI的NLP公众号

我们的公众号AINLP,致力于做一个有趣有AI的NLP公众号,作者是我爱自然语言处理博客博主,NLPJob、课程图谱网站"保姆",曾在腾讯从事文本挖掘相关工作。AINLP 关注自然语言处理、机器学习、深度学习相关技术,关注人工智能、文本挖掘相关算法研发职位,关注MOOC相关课程和公开课。公众号直接对话双语聊天机器人、调戏夸夸机器人、尝试自动对联、作诗机,使用中英机器翻译,查询相似词,计算相似度,玩词语加减游戏,测试NLP相关工具包,欢迎来聊,欢迎关注。

以下是一些文章和资源的相关索引:

如何学习NLP和NLP相关资源
如何学习自然语言处理:一本书和一门课
如何学习自然语言处理:NLP领域经典《自然语言处理综论》英文版第三版更新
2019斯坦福CS224n深度学习自然语言处理课程视频和相关资料分享
CS224N 2019最全20视频分享:斯坦福大学深度学习自然语言处理课程资源索引
李纪为博士:初入NLP领域的一些小建议
老宋同学的学习建议和论文:听说你急缺论文大礼包?
从老宋的角度看,自然语言处理领域如何学习?
刘知远老师NLP研究入门之道:NLP推荐书目
NLP研究入门之道:自然语言处理简介
NLP研究入门之道:走近NLP学术界
NLP研究入门之道:如何通过文献掌握学术动态
NLP研究入门之道:如何写一篇合格的学术论文
NLP研究入门之道:本科生如何开始科研训练
自然语言理解难在哪儿?
好的研究想法从哪里来
你是如何了解或者进入NLP这个领域的?
NLP is hard! 自然语言处理太难了系列

腾讯词向量和相似词、相似度、词语游戏系列
相似词查询:玩转腾讯 AI Lab 中文词向量
玩转腾讯词向量:词语相似度计算和在线查询
腾讯词向量实战:通过Annoy进行索引和快速查询
玩转腾讯词向量:Game of Words(词语的加减游戏)
词向量游戏:梅西-阿根廷+葡萄牙=?
腾讯 800 万中文词向量 API Demo 搭建

NLP相关工具及在线测试(公众号对话测试)
五款中文分词工具在线PK: Jieba, SnowNLP, PkuSeg, THULAC, HanLP
中文分词工具在线PK新增:FoolNLTK、LTP、StanfordCoreNLP
Python中文分词工具大合集:安装、使用和测试
八款中文词性标注工具使用及在线测试
百度深度学习中文词法分析工具LAC试用之旅
来,试试百度的深度学习情感分析工具
AINLP公众号新增SnowNLP情感分析模块

自动对联及作诗机
风云三尺剑,花鸟一床书---对联数据集和自动对联机器人
自动对联活动获奖结果以及机器对联赏析
"自动作诗机"上线,代码和数据都是公开的

夸夸聊天机器人及其他技能
一行Python代码实现夸夸聊天机器人
为了夸夸聊天机器人,爬了一份夸夸语料库
夸夸聊天机器人升级:从随机到准个性化
来,试试语音(识别)聊天(机器人)
来,试试成语接龙
推荐一份中文数据,来试试汉字、词语、成语、歇后语在线检索
AINLP公众号新增"狗屁不通文章生成器"接口
来,试试彩虹屁生成器

BERT及预训练模型相关文章
BERT相关论文、文章和代码资源汇总

张俊林博士系列解读:
放弃幻想,全面拥抱Transformer:自然语言处理三大特征抽取器(CNN/RNN/TF)比较
预训练在自然语言处理的发展: 从Word Embedding到BERT模型
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
Bert时代的创新(应用篇):Bert在NLP各领域的应用进展
效果惊人的GPT 2.0模型:它告诉了我们什么
XLNet:运行机制及和Bert的异同比较

高开远同学系列:
BERT源码分析PART I
BERT源码分析PART II
BERT源码分析PART III
站在BERT肩膀上的NLP新秀们(PART I)
站在BERT肩膀上的NLP新秀们(PART II)
站在BERT肩膀上的NLP新秀们(PART III)
Nvidia League Player:来呀比到天荒地老
Dive into BERT:语言模型与知识
当BERT遇上知识图谱
中文预训练模型ERNIE超详细使用指南

老宋的茶书会系列:
听说你还没读过 Bert 源码?
Bert 之后:预训练语言模型与自然语言生成
就最近看的paper谈谈预训练语言模型发展
Bert 改进: 如何融入知识
ALBERT 告诉了我们什么?

太子長琴同学系列:
BERT论文笔记
XLNet 论文笔记
ERNIE Tutorial(论文笔记 + 实践指南)

张贵发同学系列:
一步步理解BERT
最新语言表示方法XLNet
深度剖析知识增强语义表示模型——ERNIE

艾力亚尔同学的文章:
NLP - 基于 BERT 的中文命名实体识别(NER)
NLP - BERT/ERNIE 文本分类和部署

SunYanCN同学的文章:
详解BERT阅读理解
简单高效的Bert中文文本分类模型开发和部署

李如同学的文章:
【NLP】ALBERT粗读

其他相关:
BERT 的演进和应用
吴金龙博士的解读:BERT时代与后时代的NLP
谷歌BERT模型深度解析
BERT_Paper_Chinese_Translation: BERT论文中文翻译版
【Github】BERT-train2deploy:BERT模型从训练到部署
BERT/注意力机制/Transformer/迁移学习NLP资源大列表:awesome-bert-nlp
NLP中的词向量对比:word2vec/glove/fastText/elmo/GPT/bert
中文预训练ALBERT模型来了:小模型登顶GLUE,Base版模型小10倍速度快1倍
超小型bert横空出世:训练和预测提速10倍
RoBERTa for Chinese:大规模中文预训练RoBERTa模型
中文语言理解基准测评(chineseGLUE)来了,公开征集数据集进行中
最简单的BERT模型调用方法

求职相关
2021 校招算法岗, 劝退还是继续
EE转CS,拿了多个行业offer,最终选择NLP算法岗的同学的秋招总结
14种模式解决面试算法编程题(PART I)
14种模式解决面试算法编程题(PART II)

中文分词
中文分词文章索引和分词数据资源分享
自然语言理解太难了之中文分词八级测试
中文分词工具评估:chinese-segmentation-evaluation
简单有效的多标准中文分词

命名实体识别
【论文笔记】命名实体识别论文
一文详解深度学习在命名实体识别(NER)中的应用

关系提取
关系提取简述
【论文】Awesome Relation Classification Paper(关系分类)(PART I)
【论文】Awesome Relation Classification Paper(关系分类)(PART II)
【论文】Awesome Relation Extraction Paper(关系抽取)(PART III
【论文】Awesome Relation Extraction Paper(关系抽取)(PART IV)
【论文】Awesome Relation Extraction Paper(关系抽取)(PART V)

文本分类/情感分析
几个可作为Baseline的文本分类模型
清华THUNLP多标签分类论文笔记:基于类别属性的注意力机制解决标签不均衡和标签相似问题
【论文串烧】基于特定实体的文本情感分类总结(PART I)
基于特定实体的文本情感分类总结(PART II)
基于特定实体的文本情感分类总结(PART III)
深度学习实践:从零开始做电影评论文本情感分析
5个例子,秒懂分类算法(达观数据王子豪)
NLP - 15 分钟搭建中文文本分类模型

文本摘要
真正理解指针生成网络——Summarization with Pointer-Generator Networks
抛开模型,探究文本自动摘要的本质——ACL2019 论文佳作研读系列
文本自动摘要任务的“不完全”心得总结
BottleSum——文本摘要论文系列解读

知识图谱
“原子”因果常识图谱
知识图谱存储与查询:自然语言记忆模块(NLM)
知识图谱从哪里来:实体关系抽取的现状与未来

对话系统/对话系统/聊天机器人
生成式对话seq2seq:从rnn到transformer
QA问答系统中的深度学习技术实现
从产品完整性的角度浅谈chatbot
来谈谈那些很棒的检索式Chatbots论文(一)
来谈谈那些很棒的检索式Chatbots论文(二)
Rasa介绍:对话系统、产品与技术
基于RASA的task-orient对话系统解析(一)
基于RASA的task-orient对话系统解析(二)——对话管理核心模块
基于RASA的task-orient对话系统解析(三)——基于rasa的会议室预定对话系统实例
Rasa入坑指南一:初识Rasa
Rasa 入坑指南二:基于 Rasa 构建天气查询机器人
做对话机器人的各家企业,都在关注哪些问题

阅读理解
阅读理解之(bidaf)双向注意力流网络
陈丹琦博士论文翻译:神经阅读理解与超越(Neural Reading Comprehension and Beyond)

机器翻译
Philipp Koehn大神的神经网络机器翻译学习资料:NMT Book
清华大学NLP组整理的机器翻译论文阅读清单

文本生成
电脑也能写出连贯的文章吗?

推荐系统
当我们谈论“推荐系统”时在谈论什么?
推荐系统中的矩阵分解技术
受限玻尔兹曼机原理及在推荐系统中的应用
推荐系统召回四模型之:全能的FM模型
推荐系统召回四模型之二:沉重的FFM模型
【Github】深度学习在推荐系统中的应用及论文小结

论文笔记
用腻了 CRF,试试 LAN 吧?
Meta-Learning:Learning to Learn and Applications

竞赛相关
AI Challenger 2017 奇遇记
AI Challenger 2018 简记
AI Challenger 2018 文本挖掘类竞赛相关代码及解决方案汇总
AI Challenger 2018 机器翻译冠军参赛总结
AI Challenger_2018英中文本机器翻译_参赛小结
AI Challenger 2018 冠军 PPT 分享---细粒度情感分析赛道
AI Challenger 2018 冠军代码分享---细粒度情感分析赛道
AI Challenger 2018 第4名PPT分享---细粒度情感分析赛道
提供一个10分钟跑通 AI Challenger 细粒度用户评论情感分析的fastText Baseline
FlyAI算法竞赛平台初体验
法研杯要素识别第二名方案总结:多标签分类实践与效果对比
2019法研杯比赛--阅读理解任务第4名团队参赛总结
法研杯cail2019阅读理解比赛记录(第5名团队分享)
【Github】2019年达观信息提取比赛第九名代码和答辩PPT
CCF BDCI2019 金融信息负面及主体判定 冠军方案解析

求职相关
2021 校招算法岗, 劝退还是继续
EE转CS,拿了多个行业offer,最终选择NLP算法岗的同学的秋招总结
14种模式解决面试算法编程题(PART I)
14种模式解决面试算法编程题(PART II)

开源项目及资源
中文自然语言处理相关的开放任务,数据集,以及当前最佳结果
用于中文闲聊的GPT2模型:GPT2-chitchat
中文歌词生成,缺不缺语料?这里有一个开源项目值得推荐
深度学习资源大列表:关于深度学习你需要了解的一切
funNLP: 从文本中抽取结构化信息的超级资源包
NLP 2018 Highlights:2018自然语言处理技术亮点汇总
NLP Chinese Corpus项目:大规模中文自然语言处理语料
Awesome-Chinese-NLP:中文自然语言处理相关资料
Jiagu:中文深度学习自然语言处理工具
上百种预训练中文词向量:Chinese-Word-Vectors
lazynlp:构建大规模语料库的"懒人"工具箱
关于聊天机器人,这里有一份中文聊天语料库资源
复旦NLP实验室NLP上手教程
AI算法工程师手册
NLP学习新资料:旧金山大学2019夏季自然语言处理课程
中文自然语言处理数据集:ChineseNLPCorpus
【Github】nlp-journey: NLP相关代码、书目、论文、博文、算法、项目资源链接
NeuralNLP-NeuralClassifier:腾讯开源深度学习文本分类工具
【Github】Chinese-poetry: 最全中华古诗词数据库
【Github】ML-NOTE:注重数学推导的机器学习算法整理
【Github】All4NLP:自然语言处理相关资源整理
【Github】GPT2-Chinese:中文的GPT2训练代码
【Github】nlp-tutorial:TensorFlow 和 PyTorch 实现各种NLP模型
【Github】ML-NLP:机器学习、NLP面试中常考到的知识点和代码实现
【Github】Data Competition Top Solution: 数据竞赛top解决方案开源整理
【Github】nlp-roadmap:自然语言处理路相关路线图(思维导图)和关键词(知识点)
【Github】TextCluster:短文本聚类预处理模块 Short text cluster

其他相关
认真推荐一份深度学习笔记:简约而不简单
神经网络佛系炼丹手册
通过Docker部署深度学习项目环境
GPU 显存不足怎么办?
AINLP-DBC GPU 使用体验指南
200行写一个自动微分工具
定个小目标,发它一个亿条微博语料
推荐两份NLP读书笔记和一份NLTK书籍代码中文注释版
微软深度学习入门教程更新
Gilbert Strang教授的MIT公开课:数据分析、信号处理和机器学习中的矩阵方法
Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱
如何计算两个文档的相似度一
如何计算两个文档的相似度二
如何计算两个文档的相似度三
Hands-on Machine Learning with Scikit-Learn and TensorFlow 学习笔记
感知智能到认知智能中对知识的思考
polyglot:Pipeline 多语言NLP工具
A/B测试的数学原理与深入理解
详解TensorFlow™ GPU 安装
fastText原理及实践
中国科学技术大学计算机学院课程资源:USTC-CS-Courses-Resource
那些值得推荐和收藏的线性代数学习资源

资源关键字
AINLP聊天机器人除了日常搭讪外,还负责回复用户的日常查询,所以为一些关注度比较高的文章和NLP资源做了关键字和索引,分散在以前的一些文章介绍里,这里再统一贴出来:

1、关注AINLP公众号,后台回复 “文章、历史消息、历史、history、存档” 任一关键字获取历史文章存档消息。

2、回复“正态分布,rickjin, 正态分布前世今生, 正态分布文章, 正太分布, 正太, 正态”任一关键字获取Rickjin正态分布前世今生系列:

正态分布系列文章索引

3、回复“nlp, 自然语言处理,学习自然语言处理,学习nlp, 如何学习nlp,如何学习自然语言处理” 任一关键字获取文章:如何学习自然语言处理

4、回复"slp" 获取:斯坦福NLP书籍和课程网盘链接和密码

5、回复"slp3" 获取:自然语言处理综论英文版第三版及斯坦福NLP课程链接和密码

6、回复"ng" 获取:Andrew Ng老师课程相关资料链接和密码

7、回复"aic" 获取:AI Challenger 2018 文本挖掘类竞赛相关代码及解决方案汇总
博客版本持续更新,欢迎提供线索:http://www.52nlp.cn/?p=10998

8、回复"bert" 获取:BERT相关论文、文章和代码资源汇总
博客版本持续更新:http://www.52nlp.cn/?p=10870

9、回复"HMM" 获取:HMM学习最佳范例全文PDF
HMM学习最佳范例全文PDF文档及相关文章索引

10、回复"Hinton" 获取:面向机器学习的神经网络公开课视频及课件
Geoffrey Hinton 大神面向机器学习的神经网络公开课及相关视频资料

11、回复"NLTK" 获取: NLTK相关资料
Python自然语言处理工具NLTK学习导引及相关资料

12、回复"youhua"获取:优化相关资料
凸优化及无约束最优化相关资料

13、回复"xiandai"获取:线性代数相关资料
那些值得推荐和收藏的线性代数学习资源

14、回复"cs224n"获取:深度学习自然语言处理课程最新视频:
2019斯坦福CS224n深度学习自然语言处理课程视频和相关资料分享
斯坦福大学深度学习自然语言处理课程CS224N 2019 全20个视频分享

15、回复"kuakua"获取:夸夸语料库(500条)
为了夸夸聊天机器人,爬了一份夸夸语料库

16、回复"fenci"获取:中文分词相关资源
中文分词文章索引和分词数据资源分享

17、回复”tongjixuexi”获取:李航老师统计学习方法第一版PPT(清华大学深圳研究生院袁春老师精心制作)
李航老师《统计学习方法(第二版)》出版及统计学习方法第一版PPT课件下载

18、回复"nmt"获取:Philipp Koehn大神的神经网络机器翻译学习资料:NMT Book

另外我们建立了几个微信群,围绕招聘、求职、技术、竞赛交流相关主题,感兴趣的同学可以添加微信AINLP2或者扫描以下二维码,注明关键字,拉你入群:

八款中文词性标注工具使用及在线测试

结束了中文分词工具的安装、使用及在线测试,开启中文词性标注在线测试之旅,一般来说,中文分词工具大多数都附带词性标注功能的,这里测试了之前在AINLP公众号上线的8款中文分词模块或者工具,发现它们都是支持中文词性标注的,这里面唯一的区别,就是各自用的词性标注集可能有不同:

以下逐一介绍这八个工具的中文词性标注功能的使用方法,至于安装,这里简要介绍,或者可以参考之前这篇文章:Python中文分词工具大合集:安装、使用和测试,以下是在Ubuntu16.04 & Python3.x的环境下安装及测试。
继续阅读