作者归档:boycat

第一砖,混在NLP!

Deep Learning Specialization on Coursera

这第一板砖,就谈谈大家可能感兴趣的讨论题目吧。

我接触NLP的时间很短,在最初的几年里,兴趣也不浓厚,只是被动的去听课,听听报告(现在想起来错过了很多牛人的报告)。应该是我的导师不厌其烦的鼓励,还有当时的新室友(samcd)让我有了一些兴趣去尝试深入了解一些NLP问题。

随后就在水木nlp版和52nlp出没,到现在已经有挺长一段时间了,从开始看大家讨论,到跟着掺和,学到了不少东西,也纠正了很多错误的概念,受益匪浅!总体上感觉有一些问题是比较引人注意的,经常引发讨论。 希望我们能像52nlp建议的那样, 充分发挥自己的特长,在自己关注的,或者工作的领域上引导一些专题讨论,由浅入深,进而汇总成一组对更多nlpers(从入门到进阶)都有帮助的资源。

希望大家积极揭发身边的领域内“知名人士” 来主持感兴趣的专题:-)

0,宏观介绍NLP研究趋势(符号规则,统计学习,等等)—-这个需要大牛来做。。。

1, 有关自然语言处理的一些基本问题, 同时也是经典问题,尤其以不同语言的预处理(哪怕是英语,细问起来,你会发现不同人对不同任务的预处理习惯差别还挺大, tokenization? lemmatizatioin? ), 中文分词,POS标注,computing word similarity, WordNet 和语言模型(LM). (谈这些问题就不可避免地会谈及一些经典模型,从规则到统计,我想可以穿插进行,现在流行的ML paper不是经常拿pos-tagger等小任务来展示自己嘛)

2, 一些NLP的综合应用,从经典的自动语音识别(ASR),语音合成(TTS),到语义分析(semantics,例如,语义消歧(WSD),语义表示 (semantic space),semantic role labelling),句法分析(各种语法:PCFG, HPSG,甚至CCG, TAG, QG)。我们不可能找个人出来精通所有这些,但大家都贡献自己专长的某一部分的经验,综合起来就会非常漂亮了(欢迎大家互相揭发)。

3,面向实际的深层次综合应用。这个就不用列举了吧,大家都是各方面的行家。从Natural Language Generation, 机器翻译(MT),自动文本摘要(summarization, text2text compression),情感分类(sentiment analysis),对话系统(dialogue),问答系统(QA),推荐系统,基于信息抽取(IE),信息检索(IR)的一大类需求(Keyword Extraction , Relation Extraction, Text Representation, Text Classification)

4,一些经典的模型(各种机器学习模型等等),方法(bayesian方法--这个我来揭发PCA),这个52nlp已经做了大量的工作了:)

5,一些资源,工具的介绍,使用心得。WordNet, Penn TreeBank,(常用语言资源),机器翻译资源(europar?), FrameNet,probank, 各种 POS-taggers, 中文分词包,parsers,一些常用的工具,Lingpipe,SRILM, 等等

完全覆盖所有这些话题是不太现实,不过至少我们可以挑选一些有广泛代表性的问题开始,然后再开展一些更深入的专题。

欢迎大家拍砖,希望我们能尽快确定一个大致的列表。下周ACL的deadline一过,就可以找各位牛人“志愿”了:)