月度归档:2010年04月

ACL 2010 Paper国内研究单位录用情况

  首先感谢几位热心读者对《ACL 2010: List of Accepted Papers》的补充,这里做个总结,如有遗漏和错误之处,欢迎指正。以下是ACL 2010国内研究单位的录用情况: 继续阅读

ACL 2010: List of Accepted Papers

  ACL会议(Annual Meeting of the Association for Computational Linguistics)是自然语言处理与计算语言学领域最高级别的学术会议,由计算语言学协会主办,每年一届。ACL 2010是第48届年会,将于7月11日~16日在瑞典乌普萨拉举办,由乌普萨拉大学语言学系主办(The 48th Annual Meeting of the Association for Computational Linguistics will be held in Uppsala, Sweden, July 11–16, 2010. The conference will be organized by the Department of Linguistics and Philology at Uppsala University)。
  今天ACL2010官方网站上列出了今年的full paper录用文章及学生workshop的录用论文,如果读者还记得,去年也稍早一点时间,ACL2009给出了同样的录用文章列表,这里做过记录:ACL09 Full Paper录用情况。以下转载自ACL 2010的官方的“List of Accepted Papers”,我已对部分进行了"研究单位“的标注,目前已经发现的有中科院计算所刘群老师自然语言处理研究组的四篇,微软亚洲研究院周明老师自然语言计算组两篇,北大两篇,东北大学两篇(?),欢迎知情的读者继续在这里“爆料”。 继续阅读

《自然语言处理的形式模型》导读

  前几天在这里介绍过冯志伟老师的“自然语言处理的形式模型“,wibe同学第一时间在卓越购得此书,并且很快得写了“《自然语言处理的形式模型》导读“这篇书评。读了一下,感觉写得不错,就在这里转载了,方便有需求的读者作一些参考。 继续阅读

Beautiful Data-统计语言模型的应用三:分词8

  对于一个包含n个字符的单词来说,利用语言模型进行分词的前提是首先枚举出所有的候选切分,而segment函数中:
  candidates = ( [first] + segment( rem ) for first, rem in splits( text ) )
的作用正是如此,它包含了递归调用,因此能枚举出所有的候选切分。那么,这个函数的时间复杂度是多少呢?一个包含n个字符的字符串有2^(n-1)种不同的分词方案(在字符之间有n-1个位置,每一个位置既可以作为单词边界也可以不作为边界),因此segment函数的时间复杂度为O(2^n),难怪之前的测试当字符串比较长时就跑不出结果了! 继续阅读

Google’s Python Class SOS 续 --下载

  这是”Google’s Python Class SOS“的延续,但是首先得感谢“一盆仙人球”和“wibe"两位热心读者——”仙人球“兄提供视频,而wibe则提供emule共享——以下是Google's Python Class视频的emule下载地址,请注意wibe工作日8点至下午5点在线,目前只有这一个种子,请读者下载后尽量提供给其他人继续下载,这样可以持续维持这个课程的下载了: 继续阅读

安装Srilm的一点新变化

  读者Fanlc昨天在《Ubuntu 64位系统下SRILM的配置详解》下留言:“为什么我下载到的1.5.10版本,没有test文件夹呢?编译之后也没有……这怎么测试”。我手头没有Srilm的1.5.10版本,于是下载了一个看看,发现主目录下的确没有test文件夹,对比了一下1.5.9版本的Srilm目录,发现这是一点新变化。 继续阅读

冯志伟:自然语言处理的形式模型

  《自然语言处理的形式模型》是冯志伟老师2010年出的一本新书,也是近期国内自然语言处理及计算语言学领域的一部新著,属于”中国科大校友文库”系列,我没有看过全书,以下摘自于卓越网的介绍。 继续阅读