标签归档:如何学习NLP

学自然语言处理,其实更应该学好英语

关于如何学习自然语言处理,如何入门NLP,无论在博客、微博还是AINLP公众号以及技术交流群里,遇到过一些同学提这个问题,之前开玩笑的建议过:学好英语、打好数学和计算机科学的基础,然后再了解一点语言学,这个问题就简单了。今天,刚好看到一条微博,关于“为什么要学习英语”:

姑且不论这个微博里的观点你是否赞同,但是关于英语的重要性,对于NLPer来说,对于学习自然与处理来说,无论如何强调都不为过。很多同学入门NLP第一个问题就是有哪些NLP学习资源或者路径?我一般首先推荐的都是国外的经典书籍和课程,譬如自然语言处理综论SLP3,斯坦福大学早期经典NLP课程,以及近期深度学习自然语言处理热门课程CS224n,这些资源都是NLP领域大师级人物的书籍或者授课,都是第一手的优质学习资源,你第一个需要解决的问题就是英语。有时候真的非常羡慕现在的学生朋友,你们遇到了一个好时代,现在的学习资源真的是无比丰富,你们所面临的问题不是找资源,而是如何甄选优质的学习资源,当然,前提是你得学好英语。

关于如何学习英语,说一点个人经验。中学时代,英语对我来说有点鸡肋的感觉,不太喜欢那些语法,然后又不得章法的学习英语,导致英语是托后腿的课程,高考时英语的成绩也是最低的。到了大学,我花了很长时间寻找英语学习的方法论,印象比较深刻的是逆向英语学习法,听过和跟读过不少VOA慢速英语。期间,对我来说,影响最大的是来自当时新东方某个副校长(名字忘了)的一本关于如何学习英语的小册子,里面很多内容都忘了,但是有一个观点对我来说印象很深,大意就是“纯英文环境学习英文”,有几点建议很有意思:一个就是用英文解释单词的词典,另外一个就是按从易到难的顺序阅读纯英文分级读物,还有一个就是看无字幕的英文视频。关于第一点,我买了一本很厚的柯林斯英文词典,那本词典用简单的英文单词解释单词,在之后学习的过程中,遇到不懂的英文单词就翻,帮助很大。关于第二点,我在哈工大的图书管里找到了一批英文原版分级读物,从最简单的一级开始读起,直到读到最后一级,这个过程中印象最深的就是读到了小说的感觉,头脑中会浮现出书中的场景。关于第三点,印象最深的是看无字幕的friends,看了好多遍,另外一个就是当时收藏了不少英文电影DVD,还有就是下载和观看了不少探索发现节目。这个过程中英文的阅读能力和听力逐渐培养起来了。等到读研和工作时,强迫自己看英文版教材以及论文,逐渐养成查阅英文资料的习惯,甚至尝试写英文博客,不知不觉将英语变成了工作语言。现在回头再看,其实学英语最核心的方法就是“用”,强迫自己用起来,逐渐养成习惯就可以了,“无他,唯手熟尔”。

前段时间,Springer面向公众开放数百本正版电子书籍,涵盖社会科学和自然科学领域数百本书籍,其中,包括65本数学、编程、数据挖掘、数据科学、数据分析、机器学习、深度学习、人工智能的相关书籍 可以打包下载,包括经典的《统计学习基础》,《线性代数应该这样学》这样的书籍,唯一的前提是,这些书籍都是英语。另外,你在微博、知乎、公众号看到的大多数学习资料,源头大多来自英文世界。你在B站上看到的很多经典课程,也来自国外的知名大学,例如斯坦福大学公开课,MIT的Opencourseware,以及edX, Cousera这样的Mooc平台。学好英语,你可以亲身去体验第一手学习资源。

最后,再次回到如何学习自然语言处理的问题,这是之前发布或转载在AINLP公众号的一些文章,依然不过时,你唯一需要立即行动的就是,学好英语,用好英语:

如何学习自然语言处理:一本书和一门课
如何学习自然语言处理:NLP领域经典《自然语言处理综论》英文版第三版更新
2019斯坦福CS224n深度学习自然语言处理课程视频和相关资料分享
CS224N 2019最全20视频分享:斯坦福大学深度学习自然语言处理课程资源索引
李纪为博士:初入NLP领域的一些小建议
老宋同学的学习建议和论文:听说你急缺论文大礼包?
从老宋的角度看,自然语言处理领域如何学习?
刘知远老师NLP研究入门之道:NLP推荐书目
NLP研究入门之道:自然语言处理简介
NLP研究入门之道:走近NLP学术界
NLP研究入门之道:如何通过文献掌握学术动态
NLP研究入门之道:如何写一篇合格的学术论文
NLP研究入门之道:本科生如何开始科研训练
自然语言理解难在哪儿?
好的研究想法从哪里来
你是如何了解或者进入NLP这个领域的?
NLP is hard! 自然语言处理太难了系列

最后,欢迎关注我们的B站:https://space.bilibili.com/216712081 ,会甄选一些NLP相关的经典课程资源供大家学习,目前才刚刚开始做,前提依然是你要学好英语:

如何学习自然语言处理:NLP领域经典《自然语言处理综论》英文版第三版更新

如何学习NLP? 我觉得先要学好英语、数学和编程,因为英文世界的资料更丰富和原创,而数学会让你读论文的时候游刃有余、编程可以让你随时随地实现相关的idea。这好像是废话,那么闲话少说,进入正题。

去年写过一篇《如何学习自然语言处理:一本书和一门课》,介绍了NLP领域经典书籍《自然语言处理综论(Speech and Language Processing)》第三版的相关情况,时隔一年,很多事情发生了变化,包括第二版的中文翻译版终于出了。作为NLP入门书籍,十年前我读过这本书的第一版中文翻译版,第二版英文版;看到第二版中文翻译版和当前第三版英文版的相关内容,仿佛一个时代的跨越。

貌似为了方便2018年(斯坦福)秋季课程的原因,该书作者,NLP领域的大神 Daniel Jurafsky 教授和 James H. Martin 教授发布了一个截止2018年9月23日的单pdf文件:Speech and Language Processing (3rd ed. draft),包含了目前已经完成的所有章节,供用户下载和使用:

This is the release for the start of fall term 2018.
The slides are in the process of being updated now, we are putting them up as we write them.

Significantly rewritten version of 5, 6, 7, 8, 17, 18, 19, 23, 24, 25, and a draft of 9! New pedagogical sequences on neural networks and their training, starting with logistic regression and continuing with embeddings, feed-forward nets, and RNNs. Plus new or improved coverage of BPE, tf-idf, bias in embeddings, beam search decoding, HMMs, connotation frames, lexicon induction. reading comprehension/QA. Some chapters have been moved to the Appendix.

New lecture slides (so far) for chapters 6 and 25.

Here's a single pdf of the whole book-so-far!

Typos and comments welcome (just email slp3edbugs@gmail.com and let us know the date on the draft)!
And feel free to use the draft slides in your classes.

When will the book be finished? We're shooting for late 2019.

与之前的版本相比,重写了5、6、7、8、17、18、19、23、24、25章节的大部分内容和并新增了第9章节“递归神经网络中的序列处理(Sequence Processing with Recurrent Networks)”的草稿;调整了神经网络及其训练的教学顺序,从逻辑回归开始,到(词)嵌入,前馈网络以及递归神经网络;新增或者加大了BPE处理、tf-idf、柱搜索解码、隐马尔可夫模型、词典推理、阅读理解、自动问答等内容;一些旧的章节被移到附录。

另一个大家比较关心的问题,英文版第三版什么时候完工?官方预计要到2019年年底了。这本书英文版第一版自2000年出版,第二版英文版2008年出版,至今跨越接近20年,特别是这几年深度学习的风生水起,第三版增加了很多NLP和深度学习相关的内容,相对第二版变化有些大,这个第三版已完成章节的电子版草稿,总计有558页,估计全书完成时要秒杀第二版的厚度。

关于作者,两位都是NLP领域的神牛,以下是第二版中文翻译版中详细的介绍:

Daniel Jurafsky现任斯坦福大学语言学系和计算机科学系副教授。在此之前,他曾在博尔德的科罗拉多大学语言学系、计算机科学系和认知科学研究所任职。他出生于纽约州的Yonkers,1983年获语言学学士,1992年获计算机科学博士,两个学位都在伯克利加利福尼亚大学获得。他于1998年获得美国国家基金会CAREER奖,2002年获得Mac-Arthur奖。他发表过90多篇论文,内容涉及语音和语音处理的广泛领域。James H. Martin现任博尔德的科罗拉多大学语言学系、计算机科学系教授,认知科学研究所研究员。他出生于纽约市,1981年获可伦比亚大学计算机科学学士,1988年获伯克利加利福尼亚大学计算机科学博士。他写过70多篇关于计算机科学的论著,出版过《隐喻解释的计算机模型》(A Computational Model of Metaphor Interpretation)一书。

最后是如何下载这个电子版,其实官网上已经提供了相关的下载链接:https://web.stanford.edu/~jurafsky/slp3/ ,这篇文章上面的pdf也直接链向下载链接 ,如果还是无法下载这个电子版,可以关注我们的公众号:"NLPJob" , 回复 "slp3" 获取该书电子版以及 Daniel Jurafsky 教授之前在Coursera上开播的斯坦福大学自然语言处理课程相关资料视频(目前已绝版),一并学习自然语言处理。

注:原创文章,转载请注明出处及保留链接“我爱自然语言处理”:http://www.52nlp.cn

本文链接地址:如何学习自然语言处理:NLP领域经典《自然语言处理综论》英文版第三版更新 http://www.52nlp.cn/?p=10785