五
13
微软研究院的官方网站上近期发布了一篇文章:“Microsoft Web N-gram Services“,大意是邀请整个社区使用其提供的”Web N-gram services”,这个服务旨在通过基于云的存储平台,推动网络搜索,自然语言处理,语音技术等相关领域,在研究现实世界的大规模网络数据时,利用该服务所提供动态数据对项目中的常规数据进行补充更新,进而有所发现和创新。 阅读全文
四
16
平行语料库对于统计机器翻译(SMT)的研究至关重要,欧洲议会平行语料库是目前互联网上可免费获取的非常规范的平行语料库。本文主要根据欧洲议会平行语料库的英文主页介绍进行了粗略翻译,其时间跨度从1996年至2006年,目前这个语料库还在继续扩建中。 阅读全文
三
5
打开SMT官网主页下的这个页面:http://www.statmt.org/matrix/,会发现一个漂亮的“欧洲矩阵(Euro Matrix)”,这是一个由11*11小方块组成的矩阵:在其对角线上,有欧洲11个国家的名字和国旗;而对角线之外的小方块里,则是机器翻译里的BIEU评分。这个矩阵图展示了欧盟11个国家官方语言间的110种翻译结果的BLEU评分值,而这幅图的背后,则是宏伟的EuroMatrix工程! 阅读全文
一
10
自然语言处理:单词计数
Natural Language Processing: (Simple) Word Counting 阅读全文
一
9
自然语言处理:单词计数
Natural Language Processing: (Simple) Word Counting 阅读全文
一
8
自然语言处理:单词计数
Natural Language Processing: (Simple) Word Counting 阅读全文
十二
26
晚上读了LDC的语料库自动采集系统(BITS)的论文,感觉其可操作性更大,可以考虑结合Strand的框架设计一个语料库收集工具的新的架构。 阅读全文
十二
24
统计机器翻译发展到目前为止,我觉得最主要的两个里程碑式的工作应该是:一是Brown等在90、93提出的统计机器翻译框架及其数学基础;二是Och等在2002年提出的基于最大熵模型的统计机器翻译框架。 阅读全文