月度归档:2010年12月

斯坦福大学“自然语言处理”授课视频

Deep Learning Specialization on Coursera

  这是水木自然语言处理版asker版友发布的的链接,进去看了一下,发现授课老师是大名鼎鼎的Christopher Manning教授,他是两本书的第一作者:一本是《统计自然语言处理基础》(Foundations of Statistical Natural Language Processing),另一本是《信息检索导论》(Introduction to Information Retrieval),都是相应领域的入门经典。所以,对于斯坦福大学“自然语言处理”授课视频,质量应该是非常有保障的,以下是该课程的概括介绍

This course is designed to introduce students to the fundamental concepts and ideas in natural language processing (NLP), and to get them up to speed with current research in the area. It develops an in-depth understanding of both the algorithms available for the processing of linguistic information and the underlying computational properties of natural languages. Wordlevel, syntactic, and semantic processing from both a linguistic and an algorithmic perspective are considered. The focus is on modern quantitative techniques in NLP: using large corpora, statistical models for acquisition, disambiguation, and parsing. Also, it examines and constructs representative systems.

  斯坦福大学“自然语言处理”授课视频共有18堂课,我点了第一堂课的链接看了一下,视频还是很流畅的,对该课程有兴趣的读者,可以通过其课程页面的链接观看:http://see.stanford.edu/see/lecturelist.aspx?coll=63480b48-8819-4efd-8412-263f1a472f5a
继续阅读

一种基于生语料的无监督的语法规则学习方法

Deep Learning Specialization on Coursera

    【译者注:自然语言理解绝不是一种单纯的数学游戏,也不是单纯的语言哲学所描述的体系,因此,过分地讨论算法和语言教条都不是有前途的道路。自然语言理解是介于信息积累和语言教条综合执行的过程,因此,未来的方向也许主要停留在关注语言学习的研究方法上。
本文正是利用信息统计的手段解决传统规则学习的一种有价值的探索。因此,译者深受启发,便连夜翻译出来,希望该文也能成为大家的一盏灯。由于译者英语水平有限,加上专业知识不足,翻译必有错谬之处,请各位道友争相指正。
本文原地址:kybele.psych.cornell.edu/~edelman/adios-nips-workshop.pdf】
Shimon Edelman                        Zach Solan, David Horn, Eytan Ruppin
Department of Psychology                           Sackler Faculty of Exact Sciences
Cornell University                                        Tel Aviv University
Ithaca, NY 14853, USA                               Tel Aviv, Israel 69978
se37@cornell.edu                                        {frsolan,horn,rupping}@post.tau.ac.il
摘要 

我们将自己开发的无监督语言学习模型ADIOS [1],与计算语言学和语法理论的最新工作做了一下比较。我们的方法,就一般原理来看,类似于结构语法(比如,依赖于结构生成方式,但不又像当前生成理论由词汇反映语法知识那样),而就计算特性来看,系统又类似于语法树链接方法(比如,明显具有上下文相关特性)。我们的算法学习到的表达式完全源于语料数据(无标注),而现有关于认知和结构语法以及TAGs的文献中,这些都是由人工来制定的。因而,我们的成果完善并延伸了计算学、尤其是语言学在语言学习方面的研究。该研究也表明了语言的经验化和形式化研究也可以得到有效的结合。 继续阅读

“我爱自然语言处理”两周岁

Deep Learning Specialization on Coursera

  “我爱自然语言处理”两周岁——依然谢谢所有关心52nlp的读者!
  这一年来(2009年12月20-2010年12月19日),有26,917位读者在这里或长或短的参观过;有64,027次访问数;有216,816的综合浏览量;有平均6分7秒的网站停留时间;最重要的,有了新的改变,新的作者群!
  这一年来,做的最成功的莫过于近期的转型,而最开心的则莫过于52nlp新的作者新的文章新的血液了!从2010年12月8号开放注册权限以来,52nlp已经新注册了88位作者,特别感谢以下已经为52nlp成为群体博客做出直接贡献的作者:

1、boycat:为52nlp转型为群体博客提出了最宝贵的建议和最直接的贡献-第一砖,混在NLP
2、finallyliuyu:在52nlp转型为群体博客后,贡献了第一篇博文-公布一批中文文本分类的新闻语料库
3、王增才基于哈希表和二叉树的词典研究

  欢迎大家继续在这里分享!另外,感谢Huang Yun的建议,我已经在这里安装了wordpress的latex插件,对于latex高手来说,写博文时在\$\$...\$\$之间插入latex公式即可在博文中显示相关的公式,欢迎试用,如:
\(\iiiint_{F}^{U} \, dx\,dy\,dz\,dt \) ==> \iiiint_{F}^{U} \, dx\,dy\,dz\,dt

  最后“关于”页面已经修改,2010年12月8日之后,这里已经是nlper们的群体博客!欢迎大家继续关注52nlp,更欢迎有兴趣的nlper的加入!

注:原创文章,转载请注明出处“我爱自然语言处理”:http://www.52nlp.cn

本文链接地址:http://www.52nlp.cn/我爱自然语言处理两周岁

基于哈希表和二叉树的词典研究(一)

Deep Learning Specialization on Coursera

作者:王增才

邮箱:wzc@zencai.com

摘要 词典是许多中文分词系统的一个重要的组成部分。其查询速度直接影响到分词系统的处理速度。本文使用汇编语言设计了一种高效的基于哈希表和二叉树的分词词典。

关键词 中文分词 哈希表 二叉树 词典

Study on Chinese Word Segmentation Based on Hash Table and Binary Tree

Abstract The dictionary mechanism serves as one of the important components in a lot of Chinese word segmentation systems. Its perfomance influences the segmentation speed significantly. In this paper,we design a highly efficient dictionary mechanism in Assemble language, which is based on Hash table and binary tree.

Key words Chinese segmentation; Hash table; Binary tree; Dictionary

一 介绍

虽然有人提出了不需要词典的中文分词算法,如胥桂仙等人利用统计提出了基于“找最长字共现”原则的分词算法。[2] 但是,不管是基于规则方法还是统计方法,大部分中文分词算法都有自己的词典。词典的查询速度直接影响到分词系统的处理速度。本文使用汇编语言(编译器MASM32V10)设计了一种高效的基于哈希表和二叉树的分词词典。该算法为:将所有的汉字利用哈希表存储,即根据汉字机内码的编码规律,通过直接寻址哈希函数实现词语首字的快速查找,其查找时间为O(1);然后将首字相同的词语用二叉树存储;最后将二叉树的内存地址与哈希表进行绑定。 继续阅读

第一砖,混在NLP!

Deep Learning Specialization on Coursera

这第一板砖,就谈谈大家可能感兴趣的讨论题目吧。

我接触NLP的时间很短,在最初的几年里,兴趣也不浓厚,只是被动的去听课,听听报告(现在想起来错过了很多牛人的报告)。应该是我的导师不厌其烦的鼓励,还有当时的新室友(samcd)让我有了一些兴趣去尝试深入了解一些NLP问题。

随后就在水木nlp版和52nlp出没,到现在已经有挺长一段时间了,从开始看大家讨论,到跟着掺和,学到了不少东西,也纠正了很多错误的概念,受益匪浅!总体上感觉有一些问题是比较引人注意的,经常引发讨论。 希望我们能像52nlp建议的那样, 充分发挥自己的特长,在自己关注的,或者工作的领域上引导一些专题讨论,由浅入深,进而汇总成一组对更多nlpers(从入门到进阶)都有帮助的资源。

希望大家积极揭发身边的领域内“知名人士” 来主持感兴趣的专题:-)

0,宏观介绍NLP研究趋势(符号规则,统计学习,等等)—-这个需要大牛来做。。。

1, 有关自然语言处理的一些基本问题, 同时也是经典问题,尤其以不同语言的预处理(哪怕是英语,细问起来,你会发现不同人对不同任务的预处理习惯差别还挺大, tokenization? lemmatizatioin? ), 中文分词,POS标注,computing word similarity, WordNet 和语言模型(LM). (谈这些问题就不可避免地会谈及一些经典模型,从规则到统计,我想可以穿插进行,现在流行的ML paper不是经常拿pos-tagger等小任务来展示自己嘛)

2, 一些NLP的综合应用,从经典的自动语音识别(ASR),语音合成(TTS),到语义分析(semantics,例如,语义消歧(WSD),语义表示 (semantic space),semantic role labelling),句法分析(各种语法:PCFG, HPSG,甚至CCG, TAG, QG)。我们不可能找个人出来精通所有这些,但大家都贡献自己专长的某一部分的经验,综合起来就会非常漂亮了(欢迎大家互相揭发)。

3,面向实际的深层次综合应用。这个就不用列举了吧,大家都是各方面的行家。从Natural Language Generation, 机器翻译(MT),自动文本摘要(summarization, text2text compression),情感分类(sentiment analysis),对话系统(dialogue),问答系统(QA),推荐系统,基于信息抽取(IE),信息检索(IR)的一大类需求(Keyword Extraction , Relation Extraction, Text Representation, Text Classification)

4,一些经典的模型(各种机器学习模型等等),方法(bayesian方法--这个我来揭发PCA),这个52nlp已经做了大量的工作了:)

5,一些资源,工具的介绍,使用心得。WordNet, Penn TreeBank,(常用语言资源),机器翻译资源(europar?), FrameNet,probank, 各种 POS-taggers, 中文分词包,parsers,一些常用的工具,Lingpipe,SRILM, 等等

完全覆盖所有这些话题是不太现实,不过至少我们可以挑选一些有广泛代表性的问题开始,然后再开展一些更深入的专题。

欢迎大家拍砖,希望我们能尽快确定一个大致的列表。下周ACL的deadline一过,就可以找各位牛人“志愿”了:)

公布一批中文文本分类的新闻语料库

Deep Learning Specialization on Coursera

注:博文转载、语料库使用,请注明提供者、来源以及空间提供方。

免责声明:此语料库仅供自然语言处理的业余爱好者研究和交流,禁止用于任何商业用途(包括在资源内部链接广告等行为)。

感谢网易新闻中心、腾讯新闻中心、凤凰新闻中心以及新浪新闻中心提供新闻素材。新闻著作权归以上网站所有,任何人未经上述公司允许不得抄袭。

语料库下载地址:http://download.cnblogs.com/finallyliuyu/corpus.rar

语料素材来源:      凤凰新闻中心、网易新闻中心、腾讯新闻中心、新浪新闻中心。

语料库整理提供者:  finallyliuyu 

语料库空间提供方: 博客园(无偿提供)

说明:

1、此语料库非职务作品,由本人在业余时间搜集整理,免费提供给对NLP狂热的业余爱好者学习研究使用;本人是自然语言处理的业余爱好者,在类别定义等方面都可能存在一些欠缺,欢迎大家提出宝贵意见和建议;

2、下载地址提供的是MS SQL2000数据库的备份文件。使用此数据库,您需要安装 MS SQL2000 server,然后将corpus.rar解压并还原。压缩包大小为54.8M,共包含39247篇新闻,分为历史、军事、文化、读书、教育、IT、娱乐、社会与法制等八个类别。历史类、文化类、读书类新闻来自于凤凰网,IT类的新闻全部来自tech.qq,教育类的新闻来自edu.qq,娱乐类的新闻来自网易。社会与法制类的新闻来自于新浪和腾讯的几个版面;

3、需要特别注意的是,有的新闻在开头处有大量空白,因此在查询数据库ArticleText字段中有大片空白的,不是空新闻,是整个新闻体截断显示的缘故。

4、有关语料库的其他情况,请参考《献给热衷于自然语言处理的业余爱好者的中文新闻分类语料库之一》

我本人在此语料库做过的验证性实验有:《KL语义距离计算系列》 ,《Kmeans聚类系列以及《文本分类和特征词选择系列》。

感谢DUDU在博客园无偿帮忙提供空间;也感谢博客园团队。衷心祝愿你们越办越好!

52nlp开放注册权限

Deep Learning Specialization on Coursera

  已经在这里开放了注册权限,见博客左下角(启用新主题后见右下角),点击“注册”按钮即可。进入wordpress注册页面后,输入想用用户名和邮件即可,确定后会有一封邮件发送到你邮箱,里面包含用户名,系统自动生成的密码以及登录页面;利用这个密码登录后会有提示修改密码,修改即可,这里请放心,这些密码对于管理员来说都是md5加密后的,不是明文。
  我已经尝试启用了wordpress的默认新主题,这个主题的好处是可以显示发帖作者的用户名以及该作者的文章存档,欢迎大家试用。注册的用户默认为“作者”组,可以在这里”随便“发与NLP相关的文章,一般不做限制,特别需要注意的是:
  1、如果仅仅是“提问”最好到水木自然语言处理版,那里高手众多,问的问题一般能解决;如果不得不在这里提问,请写出你的思考,最好是深思熟虑过的。

注:一觉醒来,发现已经有一些读者注册了,并且有了第一篇文章,但是有些失望:

你在读《Natural Language Processing》吗?
如题,如果你在读的话,请+我qq405243093,主要是交流课后习题,这个书是没有答案的

抱歉该文已被我删除,觉得影响博客质量,注意这里的文章不欢迎这样的“提问”,这样的提问可以放在相应的文章下“发表评论”。这里最欢迎的是关于nlp的topic。如果非得提问,请考虑是否能将问题阐述在100字以上...

  2、编辑文章时段落前的空格需要用圆角符号空格,文章发表前最好按”预览“按钮观摩一下,文章最后选择一个分类,如果没有自己要用的分类可自建,已经几个tag(主题词)。
  最后,非常欢迎Cat大侠给我们做第一期topic! 合适的话,大家可以在这里商榷一个topic list!

关于52nlp的一些讨论

Deep Learning Specialization on Coursera

  前几天水木自然语言处理版的Cat老兄光顾52nlp,提了一些很有价值的建议,放在这里和大家分享一下,希望光顾这里的nlpers也能提些建议。
  关于52nlp,一直希望她能成为自然语言处理领域的一个有价值的博客,但限于个人能力有限,很难延伸到其他自己不太明白的方向上,所以这里也很有局限性。而Cat老兄的建议正好可以让大家来发挥各自的优势,“这样形成一组文章,既能帮助新人/感兴趣的读者入门,也能提供更深层次的研讨”。非常赞赏,也把这个讨论抛给大家,希望这次讨论后52nlp能完成一次转型,我会尽一切可能在这里提供便利的条件方便大家的参与和讨论。 继续阅读