分类目录归档:随笔

自然语言处理对于IBM超级计算机沃森(Watson)意味着什么?

  这几天估计很多人都在关注IBM超级计算机沃森(Watson)在美国最受欢迎的智力竞猜电视节目《危险边缘》中的表现,而在经历了三天的比赛后,沃森终于击败了该节目历史上两位最成功的选手肯-詹宁斯和布拉德-鲁特,成为《危险边缘》节目新的王者:IBM超级计算机在智力问答比赛中击败人类。与这场“人机大战”相关的信息中,几乎都会提及“自然语言处理”,毕竟沃森首先需要突破的就是能“理解人类的语言”,这当然是“自然语言处理”的份内之事。而在我看来,IBM沃森看起来更像一个超级的“自动问答”系统,当然,沃森背后凝聚的岂止是“自动问答”,它是一个包含了海量数据处理,机器学习,信息提取,文本分析,知识推理,自动问答等众多技术的的超级“人工智能”结合体。
  下午在看到这个消息时,我有一个很强烈的念头,要写一篇“IBM超级计算机沃森(Watson)背后的自然语言处理技术”,当然,即使写出来,也只能是一个旁观者的角度,需要一定的素材去挖掘。不过刚好有一篇相关的新闻给了我一些启示“IBM宣布八所大学参与沃森计算机系统的开发”:

“我们很高兴与这些在其各自领域表现优异的大学和专家们进行合作,他们可帮助推动作为 IBM沃森系统的支柱的问答技术的进步”,IBM沃森项目组负责人 David Ferrucci 博士表示,“《危险边缘》Jeopardy! 挑战的成功将突破与计算技术的处理和理解人类语言的能力有关的障碍,并将对科学、技术和商业带来深远的影响。”

  这篇文章下面对于每所大学的贡献都给与了简要的描述,通读下来,会发现“自然语言处理”技术在其中扮演着重要的角色。特别是麻省理工学院:

来自麻省理工学院,由计算机科学及人工智能实验室首席研究科学家 Boris Katz 带领的一个研究团队开创了一个名为 START 的在线自然语言问题回答系统,该系统能够使用来自半结构化和结构化信息存储库的信息来非常准确地回答问题。对沃森系统的根本贡献是将问题细分成简单的子问题,以便迅速收集相关回答,然后将这些回答汇合起来形成最终答案的能力。沃森系统的架构还利用了由麻省理工学院开创的对象-属性-值数据模型,该模型支持对半结构化数据源中的信息进行有效的检索,以回答自然语言问题。

  这里面提到的自然语言问答系统START很有意思,有兴趣的读者可以试着问两个问题看看:”What is start" and "How old are you"! 继续阅读

摘录:祖国应该做海外华人更好的娘家-新马之旅观感

  偶尔会去“张华平博士的空间”看看,多数情况下他都会写些与教学或者技术相关的博文。今晚发现他前几天写了一篇《祖国应该做海外华人更好的娘家-新马之旅观感》,读完感慨良多,本想在张老师的文章下留个言,没想到百度空间必须注册才能发表评论,就想到这里了!虽与自然语言处理无关,但觉得还是有一些读者会感兴趣的。以下仅摘录第一段和最后一段,有兴趣的读者可以去张老师的空间看全文。

无法脱俗,春节期间携夫人一起走了一趟新马,新加坡与马来西亚的热带雨林气候造就了这片热土,常年四季如夏,雨水充足,森林覆盖面超过50%,人与自然的和谐统一,人民生活得非常惬意,没有我们那么压力山大。新加坡的人均收入3000新币(大约人民币1.5万),各类开销比较小,政府几乎负担了生老病死,教育从小到大完全免费。向国家买房,代价也不过30万人民币,化妆品国外品牌的服装基本上也就国内价格的5-8折,中国的烟酒在国外只需国内价格的5-8 折,大家明白财政收入增长的原由了吧,祖国,我们拿最低的薪水,花最高的物价,悲乎?马来西亚的经济水平比我们差,但是全民教育免费,看任何病1马币,在吉隆坡购买一套房也不过3万马币(约6.4万人民币),保障了国民的教育、医疗和住房,中国立马和谐稳定。我们还有很大的差距,还有很多的工作要做。

...

有位好友在日本生活多年,因为民族感情,迟迟不愿加入日本国籍,去年归国,有关部门以超生为由,至今无法为他的一对儿女落户,成为黑户,不得以加入加拿大国籍,苦笑一句:“我爱祖国,祖国不爱我”。改用西汉名将甘延寿和陈汤的名句,“犯我大汉子民者,虽远,必诛!”,祖国不是空泛的概念,不仅仅是动员我们奉献的主体,更应该是我们的娘家,是在我们包括海外华人受到侵犯是的保护神,这些才能让我们感觉到祖国的存在。政府和外交还有很大的差距。

  而至于我的感慨,此处省略五千字!
继续阅读

“我爱自然语言处理”两周岁

  “我爱自然语言处理”两周岁——依然谢谢所有关心52nlp的读者!
  这一年来(2009年12月20-2010年12月19日),有26,917位读者在这里或长或短的参观过;有64,027次访问数;有216,816的综合浏览量;有平均6分7秒的网站停留时间;最重要的,有了新的改变,新的作者群!
  这一年来,做的最成功的莫过于近期的转型,而最开心的则莫过于52nlp新的作者新的文章新的血液了!从2010年12月8号开放注册权限以来,52nlp已经新注册了88位作者,特别感谢以下已经为52nlp成为群体博客做出直接贡献的作者:

1、boycat:为52nlp转型为群体博客提出了最宝贵的建议和最直接的贡献-第一砖,混在NLP
2、finallyliuyu:在52nlp转型为群体博客后,贡献了第一篇博文-公布一批中文文本分类的新闻语料库
3、王增才基于哈希表和二叉树的词典研究

  欢迎大家继续在这里分享!另外,感谢Huang Yun的建议,我已经在这里安装了wordpress的latex插件,对于latex高手来说,写博文时在\$\$...\$\$之间插入latex公式即可在博文中显示相关的公式,欢迎试用,如:
\(\iiiint_{F}^{U} \, dx\,dy\,dz\,dt \) ==> \iiiint_{F}^{U} \, dx\,dy\,dz\,dt

  最后“关于”页面已经修改,2010年12月8日之后,这里已经是nlper们的群体博客!欢迎大家继续关注52nlp,更欢迎有兴趣的nlper的加入!

注:原创文章,转载请注明出处“我爱自然语言处理”:https://www.52nlp.cn

本文链接地址:https://www.52nlp.cn/我爱自然语言处理两周岁

52nlp开放注册权限

  已经在这里开放了注册权限,见博客左下角(启用新主题后见右下角),点击“注册”按钮即可。进入wordpress注册页面后,输入想用用户名和邮件即可,确定后会有一封邮件发送到你邮箱,里面包含用户名,系统自动生成的密码以及登录页面;利用这个密码登录后会有提示修改密码,修改即可,这里请放心,这些密码对于管理员来说都是md5加密后的,不是明文。
  我已经尝试启用了wordpress的默认新主题,这个主题的好处是可以显示发帖作者的用户名以及该作者的文章存档,欢迎大家试用。注册的用户默认为“作者”组,可以在这里”随便“发与NLP相关的文章,一般不做限制,特别需要注意的是:
  1、如果仅仅是“提问”最好到水木自然语言处理版,那里高手众多,问的问题一般能解决;如果不得不在这里提问,请写出你的思考,最好是深思熟虑过的。

注:一觉醒来,发现已经有一些读者注册了,并且有了第一篇文章,但是有些失望:

你在读《Natural Language Processing》吗?
如题,如果你在读的话,请+我qq405243093,主要是交流课后习题,这个书是没有答案的

抱歉该文已被我删除,觉得影响博客质量,注意这里的文章不欢迎这样的“提问”,这样的提问可以放在相应的文章下“发表评论”。这里最欢迎的是关于nlp的topic。如果非得提问,请考虑是否能将问题阐述在100字以上...

  2、编辑文章时段落前的空格需要用圆角符号空格,文章发表前最好按”预览“按钮观摩一下,文章最后选择一个分类,如果没有自己要用的分类可自建,已经几个tag(主题词)。
  最后,非常欢迎Cat大侠给我们做第一期topic! 合适的话,大家可以在这里商榷一个topic list!

关于52nlp的一些讨论

  前几天水木自然语言处理版的Cat老兄光顾52nlp,提了一些很有价值的建议,放在这里和大家分享一下,希望光顾这里的nlpers也能提些建议。
  关于52nlp,一直希望她能成为自然语言处理领域的一个有价值的博客,但限于个人能力有限,很难延伸到其他自己不太明白的方向上,所以这里也很有局限性。而Cat老兄的建议正好可以让大家来发挥各自的优势,“这样形成一组文章,既能帮助新人/感兴趣的读者入门,也能提供更深层次的研讨”。非常赞赏,也把这个讨论抛给大家,希望这次讨论后52nlp能完成一次转型,我会尽一切可能在这里提供便利的条件方便大家的参与和讨论。 继续阅读

诗歌翻译与统计机器翻译

  Google Research Blog前几天出了一篇文章“Poetic Machine Translation”,介绍的是Google的机器翻译学者对于“诗歌”进行尝试性的机器翻译,效果比预想要好,相关的研究成果在今年的EMNLP 2010会议上的发表了一篇论文,这个会议这几天正在举行。 继续阅读

语音识别和自然语言处理大师贾里尼克去世

  中午在CSDN看到这个不幸的消息:[逝者]自然语言处理大师Fred Jelinek,之后水木自然语言处理版也有nlper转载了英文的相关信息。我读了一下Language Log里的文章,印象比较深刻的是:

Jason adds that "He was in fine health and spirits and no one expected this. Those of us who are here are still trying to absorb the loss ourselves".

  
  愿老人家一路走好,在天堂里能继续他的“语音识别和自然语言处理”研究!

天佑安康,天佑父老乡亲!

  还有一尺,水就要到达家里的二楼了,父亲还在安慰我没事~~虽然从小生活在汉江边,见惯了每年夏天的大小洪水,但是真正的大洪水,我却并没有多少亲历:
  1983年7月安康遭遇百年不遇的特大洪水,我刚出生三个月,家里的老房子上面还过船,但是我没有任何印记;
  2005年安康10月大洪水,我在哈尔滨,等父亲告诉我的时候水已退了,那个时候的最大水位就是还有一尺水就要到家里二楼,幸好水没有再涨;
  前天给家里打电话,父母还告诉我老家没怎么下雨,等今天知道消息时,水已经到家门口了!刚刚给父亲打电话,水平了2005年的记录,不过还在慢慢涨,但是他还在安慰我说没事,让我早点休息!
  这个时候最应该陪在父母身边的是我,可是自己却远隔千里之外,只能通过一部手机还有这个网络搜寻着任何可能的消息!
  天佑安康,天佑父老乡亲!挺过今晚,一切都会好的!

自然语言处理与世界杯

  自然语言处理与世界杯似乎没啥关系,不过今晚世界杯没有比赛了,我也可以回来照顾一下52nlp了。但是这两者的确没什么关系,我简单的Google了一下“自然语言处理 & 世界杯”,没有什么好的材料,就先从读者评论说起吧。 继续阅读