标签归档:周明

风云三尺剑,花鸟一床书---对联数据集和自动对联机器人

很多年前看到过微软的自动对联工具,写了一篇《机器翻译与微软对联》博文,赞了MSRA用统计机器翻译(SMT)的思路做自动对联系统,当时开玩笑的说:

微软研究院的这个“对联语料库”的规模是67万对,所采用的技术是他们自己的web语料库自动获取技术。开玩笑的说,如果周明老师能给我这个语料库,我也能几天之内构建一个简单的“52nlp自动对联系统”。

前段时间看到了一份对联语料:couplet-dataset

https://github.com/wb14123/couplet-dataset

这份数据包含70万条对联数据,按字切分,作者很用心的给大家准备了训练集、测试集还有词汇表;同时还开源了一个基于Tensorflow的深度学习工具来训练自动对联模型: seq2seq-couplet

https://github.com/wb14123/seq2seq-couplet

感兴趣的同学可以直接上手操作,作者甚至还提供了Demo供大家把玩,不过目前貌似需要科学上网才能访问:

https://ai.binwang.me/couplet/

对我来说,看到这份数据的第一想法就是用神经网络机器翻译(NMT)的思路来尝试自动对联系统,这里NMT开源工具可选择的范围很广,我还是选择了Marian,跑了一个简单的对联“翻译”模型,现在接入AINLP公众号聊天机器人,感兴趣的朋友可以一试。具体方法请关注AINLP公众号,然后后台和AINLP聊天机器人互动:

回复“上联 输入上联内容” ,AINLP机器人将自动回复“下联 自动对联内容”,例如:

例子1:
上联 风云三尺剑
自动回复:
下联 花鸟一床书

注意上图来自微软亚洲研究院电脑对联页面:https://duilian.msra.cn/

其他例子可参考:

关于AINLP公众号相关信息,可参考:AINLP公众号索引、关键字和其他相关资源

注:原创文章,转载请注明出处及保留链接“我爱自然语言处理”:http://www.52nlp.cn

本文链接地址:风云三尺剑,花鸟一床书---对联数据集和自动对联机器人 http://www.52nlp.cn/?p=11145

Start your future on Coursera today.

ACL 2010 Paper国内研究单位录用情况

  首先感谢几位热心读者对《ACL 2010: List of Accepted Papers》的补充,这里做个总结,如有遗漏和错误之处,欢迎指正。以下是ACL 2010国内研究单位的录用情况: 继续阅读

Start your future on Coursera today.

ACL 2010: List of Accepted Papers

  ACL会议(Annual Meeting of the Association for Computational Linguistics)是自然语言处理与计算语言学领域最高级别的学术会议,由计算语言学协会主办,每年一届。ACL 2010是第48届年会,将于7月11日~16日在瑞典乌普萨拉举办,由乌普萨拉大学语言学系主办(The 48th Annual Meeting of the Association for Computational Linguistics will be held in Uppsala, Sweden, July 11–16, 2010. The conference will be organized by the Department of Linguistics and Philology at Uppsala University)。
  今天ACL2010官方网站上列出了今年的full paper录用文章及学生workshop的录用论文,如果读者还记得,去年也稍早一点时间,ACL2009给出了同样的录用文章列表,这里做过记录:ACL09 Full Paper录用情况。以下转载自ACL 2010的官方的“List of Accepted Papers”,我已对部分进行了"研究单位“的标注,目前已经发现的有中科院计算所刘群老师自然语言处理研究组的四篇,微软亚洲研究院周明老师自然语言计算组两篇,北大两篇,东北大学两篇(?),欢迎知情的读者继续在这里“爆料”。 继续阅读

Start your future on Coursera today.

ACL09 Full Paper录用情况

  ACL会议(Annual Meeting of the Association for Computational Linguistics)是自然语言处理与计算语言学领域最高级别的学术会议,由计算语言学协会主办,每年一届。今年的ACL与IJCNLP(International Joint Conference on Natural Language Processing)联合举行,将在新加坡举办(ACL09),时间从8月2号到7号。 继续阅读

Start your future on Coursera today.