月度归档:2011年01月

自然语言处理交流群-174735435

新的自然语言处理群号:174735435(容纳500人)
以前的群已经解散了:群一:126711788,群二:127905873
121066423(群三)还保留
----------分割线--------------
上次利用52nlp这块宝地,让博主代发了自己所创建的自然语言处理群的号码,群一:126711788,群二:127905873,没有想到有如此多的NLPer,更没有想到这样的QQ群如此受大家欢迎。大家在群里的即时讨论不仅仅帮助提问者很快的找到解决问题的方法,而且也让群中的其他成员受益匪浅。这个群不仅仅提供给我们一个即时交流场地,也能让我们分享一些NLP资源。

但遗憾的是,群的名额有限,这么短时间就满了,中间虽然删除了一部分活跃性不强的群成员,但,依然有很多的NLPer因为群成员名额有限的关系加不进来。因此,又新申请了一个新的群,群号:121066423(群三)。希望有兴趣的朋友可以加进来一起讨论NLP的那些事儿。在新的一年里让我们踏着NLP的浪潮共同成长和前进吧!

MapReduce与自然语言处理

  我接触MapReduce时间不长,属于初学者的级别,本没有资格在这里谈“MapReduce与自然语言处理”的,不过这两天刚好看了IBM developerWorks上的《用 MapReduce 解决与云计算相关的 Big Data 问题》,觉得这篇文章有两大好处:第一,它有意或无意的给了读者不仅有价值而且有脉络的关于MapReduce的参考资料;第二,虽然文中没有直接谈“自然语言处理”,但是在最后的“下一步”引申中,它给关注MapReduce在文本处理的读者列出了一份与自然语言处理相关的参考资料,这些资料,相当的有价值。因此对于“MapReduce或者并行算法与自然语言处理”,结合这篇文章以及自己的一点点经验,我尝试在这里“抛砖引玉”一把,当然,仅仅是抛砖引玉。
  MapReduce是Google定义的一套并行程序设计模式(parallel programming paradigm),由两名Google的研究员Jeffrey DeanSanjay Ghemawat在2004年时提出,二人目前均为Google Fellow。所以两位Google研究员当年的论文是MapReudce学习者的必读:

'Google 工程师发表的文章 "MapReduce: Simplified Data Processing on Large Clusters" 清楚地解释了 MapReduce 的工作方式。这篇文章导致的结果是,从 2004 年到现在出现了许多开放源码的 MapReduce 实现。'

  同时在Google Labs上,有这篇文章的摘要和HTML Slides

MapReduce is a programming model and an associated implementation for processing and generating large data sets. Users specify a map function that processes a key/value pair to generate a set of intermediate key/value pairs, and a reduce function that merges all intermediate values associated with the same intermediate key. Many real world tasks are expressible in this model, as shown in the paper.

继续阅读

中文机器翻译沙龙第三次活动报名和第二次活动小结

时间:1月16日(周日)下午14:00-17:00
报名截止日期:1月13日(周四)

地点:海淀区某茶馆,具体地点视报名人数再定

费用:AA制
专题:计算机辅助翻译(CAT)的应用现状和问题
报名请回复邮箱cmt.salon@gmail.com
 
中文机器翻译的豆瓣小组是http://www.douban.com/group/304684/
以下是第二次活动的小结:
本次聚会如期在北师大举行。共有七人参加,其中包括两位新成员。参加上次沙龙活动的部分成员,因为临近期末考试等原因,未能前来,非常遗憾。感谢北师大的郭同学热情提供了场地、投影仪、电脑等设施,使本次沙龙活动得以顺利举行。 

本次沙龙的主题是机器翻译评测。基本上以2009年的机器翻译评测大纲和评测总结报告为题材,大家一起组织了共同的学习。在BLEU基础上进行改进的BLEU-SBP是主要的评测方法。另外微软的Woodpecker在汉英评测方向进行了应用,其评测结果与BLUE-SBP有很大的差异。报告认为Woodpecker的评测方法“更加可信”。 

大家也讨论了其他的评测技术,如NIST、GTM、mWER、mPER、ICT以及基于HNC的评测技术。通过本次沙龙活动,大家对目前主流评测技术的特点和不足有了更深的认识。沙龙成员建议将沙龙活动的材料上传到网上,限于条件目前还无法实现。 

另外,大家还讨论了诸如学业与就业的相关问题。最后确定了下次沙龙活动的主题是计算机辅助翻译,时间初步确定在2011年的1月16日。

[招聘]北京语言大学汉语国际教育技术研发中心-正式编制科研岗位

北京语言大学 汉语国际教育技术研发中心 正式编制科研岗位 招聘。

岗位简介:
本岗位为学校正式编制。学历要求:计算机相关专业,博士毕业生。岗位要求:动手能力强,理论功底扎实,有较强的协调组织能力。有意者请给本中心发简历。

联系人:季翠
Email:xunendong@163.com
电话:15201643410
http://nlp.blcu.edu.cn