<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>我爱自然语言处理 &#187; 转载</title>
	<atom:link href="http://www.52nlp.cn/category/reprint/feed" rel="self" type="application/rss+xml" />
	<link>http://www.52nlp.cn</link>
	<description>I Love Natural Language Processing</description>
	<lastBuildDate>Wed, 01 Feb 2012 01:50:03 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
		<item>
		<title>NiuTrans: 一套开源的统计机器翻译平台</title>
		<link>http://www.52nlp.cn/niutrans-%e4%b8%80%e5%a5%97%e5%bc%80%e6%ba%90%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b9%b3%e5%8f%b0</link>
		<comments>http://www.52nlp.cn/niutrans-%e4%b8%80%e5%a5%97%e5%bc%80%e6%ba%90%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b9%b3%e5%8f%b0#comments</comments>
		<pubDate>Tue, 05 Jul 2011 15:20:37 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[中文信息处理]]></category>
		<category><![CDATA[机器翻译]]></category>
		<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[转载]]></category>
		<category><![CDATA[CWMT]]></category>
		<category><![CDATA[Moses]]></category>
		<category><![CDATA[NiuTrans]]></category>
		<category><![CDATA[东北大学]]></category>
		<category><![CDATA[哈工大]]></category>
		<category><![CDATA[朱靖波]]></category>
		<category><![CDATA[统计机器翻译]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=4041</guid>
		<description><![CDATA[　　晚上在CWMT（China Workshop on Machine Translation）的邮件组里看到东北大学自然语言处理实验室朱靖波老师的邮件，题为“NiuTrans: 一套开源的统计机器翻译平台”，仔细读了一下，觉得这句话很有分量：“内部测试结果显示性能和速度稳定优于Moses”,如果读者感兴趣，可以去NiuTrans的主页去申请下载，做个测试，NiuTrans的主页见：http://www.nlplab.com/NiuPlan/NiuTrans.html。前不久“哈工大语言技术平台（LTP）源代码正式对外共享”，而今东北大学也开源了NiuTrans这套统计机器翻译平台，这些对于致力于中文信息处理的NLPer来说都是好消息。以下内容全文转载自朱靖波老师的邮件： 各位老师，大家好！ 我们实验室经过多个月的努力，NiuPlan的第一个NiuTrans系列系统-基于短语的统计机器翻译系统终于打包成功，Alpha版源代码正式对外免费发布，目前访问入口显示在我们实验室网站（http://www.nlplab.com）首页左上角。网页上提供了详细的使用说明和高级参数设置方法，并且还提供了部分样本数据用于学习如何使用NiuTrans. 内部测试结果显示性能和速度稳定优于Moses.系统代码的下载方式非常简单，在注册页输入姓名和电子邮件，即可得到动态下载的链接。建议提供正确的电子邮件，这样以后可以随时得到NiuPlan的最新发布和更新信息。 计划一年之内，我们实验室将不断推出NiuPlan不同系列的开源系统，包括Hierarchical phrase-based model，Syntax-based model (string-to-tree/tree-to-string/tree-to-tree)和基于统计的句法分析系统开源平台等。 NiuPlan最终将推出四个系列的开源平台系统：NiuTrans, NiuParser, NiuMining, and NiuKnowledge（暂定名字）系列系统．欢迎同行们免费下载使用，并能够将宝贵建议及时反馈给我们，我们承诺将尽力尽快完善NiuPlan各系列开源系统，在此感谢各位的使用和对现有Bug的容忍。所有系统可以从我们实验室网站上获取．祝好！ Best regards, Dr. Jingbo Zhu (朱靖波) Professor(PhD Supervisor), Director Natural Language Processing Laboratory Northeastern University Shenyang, Liaoning, P.R.China Phone: 0086-24-83672481 (O)(Fax) &#8230; <a href="http://www.52nlp.cn/niutrans-%e4%b8%80%e5%a5%97%e5%bc%80%e6%ba%90%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b9%b3%e5%8f%b0">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/moses-recent-developments-and-others' rel='bookmark' title='Moses近期动态及其他'>Moses近期动态及其他</a></li>
<li><a href='http://www.52nlp.cn/acl09-full-paper-accepted-details' rel='bookmark' title='ACL09 Full Paper录用情况'>ACL09 Full Paper录用情况</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-company-language-weaver' rel='bookmark' title='自然语言处理公司巡礼七：Language Weaver'>自然语言处理公司巡礼七：Language Weaver</a></li>
<li><a href='http://www.52nlp.cn/acl-2010-paper-%e5%9b%bd%e5%86%85%e7%a0%94%e7%a9%b6%e5%8d%95%e4%bd%8d%e5%bd%95%e7%94%a8%e6%83%85%e5%86%b5' rel='bookmark' title='ACL 2010 Paper国内研究单位录用情况'>ACL 2010 Paper国内研究单位录用情况</a></li>
<li><a href='http://www.52nlp.cn/the-issue-of-parallel-in-moses-model-training' rel='bookmark' title='Moses中模型训练的并行化问题'>Moses中模型训练的并行化问题</a></li>
<li><a href='http://www.52nlp.cn/%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e6%96%b0%e9%97%bb%e4%b8%80%e5%88%99-sdl%e5%85%ac%e5%8f%b8%e6%94%b6%e8%b4%adlanguage-weaver' rel='bookmark' title='机器翻译新闻一则：SDL公司收购Language Weaver'>机器翻译新闻一则：SDL公司收购Language Weaver</a></li>
<li><a href='http://www.52nlp.cn/one-problem-on-moses-training-scripts' rel='bookmark' title='Moses训练脚本的一个问题'>Moses训练脚本的一个问题</a></li>
<li><a href='http://www.52nlp.cn/from-google-research-blog-google-at-acl-2011' rel='bookmark' title='From Google Research Blog: Google at ACL 2011'>From Google Research Blog: Google at ACL 2011</a></li>
<li><a href='http://www.52nlp.cn/euromatrix-and-spirit-of-openness' rel='bookmark' title='EuroMatrix与开放精神'>EuroMatrix与开放精神</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-first-part' rel='bookmark' title='MIT自然语言处理第三讲：概率语言模型（第一部分）'>MIT自然语言处理第三讲：概率语言模型（第一部分）</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><strong>　　晚上在CWMT（China Workshop on Machine Translation）的邮件组里看到东北大学自然语言处理实验室朱靖波老师的邮件，题为“NiuTrans: 一套开源的统计机器翻译平台”，仔细读了一下，觉得这句话很有分量：“内部测试结果显示性能和速度稳定优于<a href="http://www.52nlp.cn/moses-introduction">Moses</a>”,如果读者感兴趣，可以去NiuTrans的主页去申请下载，做个测试，NiuTrans的主页见：<a href="http://www.nlplab.com/NiuPlan/NiuTrans.html"target=_blank>http://www.nlplab.com/NiuPlan/NiuTrans.html</a>。前不久“<a href="http://www.52nlp.cn/%E5%93%88%E5%B7%A5%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%8A%80%E6%9C%AF%E5%B9%B3%E5%8F%B0ltp%E6%BA%90%E4%BB%A3%E7%A0%81%E6%AD%A3%E5%BC%8F%E5%AF%B9%E5%A4%96%E5%85%B1%E4%BA%AB">哈工大语言技术平台（LTP）源代码正式对外共享</a>”，而今东北大学也开源了NiuTrans这套统计机器翻译平台，这些对于致力于中文信息处理的NLPer来说都是好消息。以下内容全文转载自朱靖波老师的邮件：</strong></p>
<p>各位老师，大家好！</p>
<p>我们实验室经过多个月的努力，NiuPlan的第一个NiuTrans系列系统-基于短语的统计机器翻译系统终于打包成功，Alpha版源代码正式对外免费发布，目前访问入口显示在我们实验室网站（http://www.nlplab.com）首页左上角<NiuPlan: An Open-Source NLP Platform>。网页上提供了详细的使用说明和高级参数设置方法，并且还提供了部分样本数据用于学习如何使用NiuTrans. 内部测试结果显示性能和速度稳定优于Moses.系统代码的下载方式非常简单，在注册页输入姓名和电子邮件，即可得到动态下载的链接。建议提供正确的电子邮件，这样以后可以随时得到NiuPlan的最新发布和更新信息。</p>
<p>计划一年之内，我们实验室将不断推出NiuPlan不同系列的开源系统，包括Hierarchical phrase-based model，Syntax-based model (string-to-tree/tree-to-string/tree-to-tree)和基于统计的句法分析系统开源平台等。</p>
<p>NiuPlan最终将推出四个系列的开源平台系统：NiuTrans, NiuParser, NiuMining, and NiuKnowledge（暂定名字）系列系统．欢迎同行们免费下载使用，并能够将宝贵建议及时反馈给我们，我们承诺将尽力尽快完善NiuPlan各系列开源系统，在此感谢各位的使用和对现有Bug的容忍。所有系统可以从我们实验室网站上获取．祝好！</p>
<p>Best regards, </p>
<p>Dr. Jingbo Zhu (朱靖波)<br />
Professor(PhD Supervisor), Director<br />
Natural Language Processing Laboratory<br />
Northeastern University<br />
Shenyang, Liaoning, P.R.China<br />
Phone: 0086-24-83672481 (O)(Fax)<br />
Email: zhujingbo at mail.neu.edu.cn<br />
Homepage: http://www.nlplab.com/members/zhujingbo.html</p>
<p><span id="more-4041"></span><br />
注：转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/niutrans-一套开源的统计机器翻译平台">http://www.52nlp.cn/niutrans-一套开源的统计机器翻译平台</a></p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/moses-recent-developments-and-others' rel='bookmark' title='Moses近期动态及其他'>Moses近期动态及其他</a></li>
<li><a href='http://www.52nlp.cn/acl09-full-paper-accepted-details' rel='bookmark' title='ACL09 Full Paper录用情况'>ACL09 Full Paper录用情况</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-company-language-weaver' rel='bookmark' title='自然语言处理公司巡礼七：Language Weaver'>自然语言处理公司巡礼七：Language Weaver</a></li>
<li><a href='http://www.52nlp.cn/acl-2010-paper-%e5%9b%bd%e5%86%85%e7%a0%94%e7%a9%b6%e5%8d%95%e4%bd%8d%e5%bd%95%e7%94%a8%e6%83%85%e5%86%b5' rel='bookmark' title='ACL 2010 Paper国内研究单位录用情况'>ACL 2010 Paper国内研究单位录用情况</a></li>
<li><a href='http://www.52nlp.cn/the-issue-of-parallel-in-moses-model-training' rel='bookmark' title='Moses中模型训练的并行化问题'>Moses中模型训练的并行化问题</a></li>
<li><a href='http://www.52nlp.cn/%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e6%96%b0%e9%97%bb%e4%b8%80%e5%88%99-sdl%e5%85%ac%e5%8f%b8%e6%94%b6%e8%b4%adlanguage-weaver' rel='bookmark' title='机器翻译新闻一则：SDL公司收购Language Weaver'>机器翻译新闻一则：SDL公司收购Language Weaver</a></li>
<li><a href='http://www.52nlp.cn/one-problem-on-moses-training-scripts' rel='bookmark' title='Moses训练脚本的一个问题'>Moses训练脚本的一个问题</a></li>
<li><a href='http://www.52nlp.cn/from-google-research-blog-google-at-acl-2011' rel='bookmark' title='From Google Research Blog: Google at ACL 2011'>From Google Research Blog: Google at ACL 2011</a></li>
<li><a href='http://www.52nlp.cn/euromatrix-and-spirit-of-openness' rel='bookmark' title='EuroMatrix与开放精神'>EuroMatrix与开放精神</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-first-part' rel='bookmark' title='MIT自然语言处理第三讲：概率语言模型（第一部分）'>MIT自然语言处理第三讲：概率语言模型（第一部分）</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/niutrans-%e4%b8%80%e5%a5%97%e5%bc%80%e6%ba%90%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b9%b3%e5%8f%b0/feed</wfw:commentRss>
		<slash:comments>7</slash:comments>
		</item>
		<item>
		<title>哈工大语言技术平台（LTP）源代码正式对外共享</title>
		<link>http://www.52nlp.cn/%e5%93%88%e5%b7%a5%e5%a4%a7%e8%af%ad%e8%a8%80%e6%8a%80%e6%9c%af%e5%b9%b3%e5%8f%b0ltp%e6%ba%90%e4%bb%a3%e7%a0%81%e6%ad%a3%e5%bc%8f%e5%af%b9%e5%a4%96%e5%85%b1%e4%ba%ab</link>
		<comments>http://www.52nlp.cn/%e5%93%88%e5%b7%a5%e5%a4%a7%e8%af%ad%e8%a8%80%e6%8a%80%e6%9c%af%e5%b9%b3%e5%8f%b0ltp%e6%ba%90%e4%bb%a3%e7%a0%81%e6%ad%a3%e5%bc%8f%e5%af%b9%e5%a4%96%e5%85%b1%e4%ba%ab#comments</comments>
		<pubDate>Mon, 06 Jun 2011 01:43:44 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[中文信息处理]]></category>
		<category><![CDATA[转载]]></category>
		<category><![CDATA[LTP]]></category>
		<category><![CDATA[哈工大]]></category>
		<category><![CDATA[语言技术平台]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=4021</guid>
		<description><![CDATA[哈工大语言技术平台（LTP）源代码已经于6月1号正式对外共享，这对于广大致力于中文信息处理的NLPer来说，无疑是一个好消息。以下转载自“哈工大社会计算与信息检索研究中心”的官方主页，有需要的读者可以关注一下： 语言技术平台（Language Technology Platform，LTP）是哈工大社会计算与信息检索研究中心历时十年开发的一整套中文语言处理系统。LTP制定了基于XML的语言处理结果表示，并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块（包括词法、句法、语义等6项中文处理核心技术），以及基于动态链接库（Dynamic Link Library, DLL）的应用程序接口，可视化工具，依存树库等语料资源，并且能够以网络服务（Web Service）的形式进行使用。 从2006年9月5日开始该平台对外免费共享目标代码，截止目前，已经有国内外400多家研究单位共享了LTP，也有国内外多家商业公司购买了LTP，用于实际的商业项目中。2010年12月获得中国中文信息学会颁发的行业最高奖项：”钱伟长中文信息处理科学技术奖”一等奖。 2011年6月1日，为了与业界同行共同研究和开发中文信息处理核心技术，我中心正式将LTP的源代码对外共享，LTP由C++语言开发，可运行于Windows和Linux操作系统。详见：http://ir.hit.edu.cn/ltp/ 欢迎各界朋友共享！ 相关文章: NiuTrans: 一套开源的统计机器翻译平台 Matrix67：漫话中文分词算法 第十二届机器翻译峰会和NIST2009机器翻译评测研讨会简介1 神奇的约翰霍普金斯夏季研讨会 中文分词入门之最大匹配法扩展2 中文分词入门之篇外 中文分词入门之字标注法1 代友转发：发起成立中文机器翻译定期学术沙龙 LDC上免费的中文信息处理资源 砖石，还是露水
相关文章:<ol>
<li><a href='http://www.52nlp.cn/niutrans-%e4%b8%80%e5%a5%97%e5%bc%80%e6%ba%90%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b9%b3%e5%8f%b0' rel='bookmark' title='NiuTrans: 一套开源的统计机器翻译平台'>NiuTrans: 一套开源的统计机器翻译平台</a></li>
<li><a href='http://www.52nlp.cn/matrix67-%e6%bc%ab%e8%af%9d%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e7%ae%97%e6%b3%95' rel='bookmark' title='Matrix67：漫话中文分词算法'>Matrix67：漫话中文分词算法</a></li>
<li><a href='http://www.52nlp.cn/%e7%ac%ac%e5%8d%81%e4%ba%8c%e5%b1%8a%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b3%b0%e4%bc%9a%e5%92%8cnist2009%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e8%af%84%e6%b5%8b%e7%ae%80%e4%bb%8b1' rel='bookmark' title='第十二届机器翻译峰会和NIST2009机器翻译评测研讨会简介1'>第十二届机器翻译峰会和NIST2009机器翻译评测研讨会简介1</a></li>
<li><a href='http://www.52nlp.cn/the-magic-of-johns-hopkins-summer-workshop' rel='bookmark' title='神奇的约翰霍普金斯夏季研讨会'>神奇的约翰霍普金斯夏季研讨会</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952' rel='bookmark' title='中文分词入门之最大匹配法扩展2'>中文分词入门之最大匹配法扩展2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96' rel='bookmark' title='中文分词入门之篇外'>中文分词入门之篇外</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/%e4%bb%a3%e5%8f%8b%e8%bd%ac%e5%8f%91-%e5%8f%91%e8%b5%b7%e6%88%90%e7%ab%8b%e4%b8%ad%e6%96%87%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%ae%9a%e6%9c%9f%e5%ad%a6%e6%9c%af%e6%b2%99%e9%be%99' rel='bookmark' title='代友转发：发起成立中文机器翻译定期学术沙龙'>代友转发：发起成立中文机器翻译定期学术沙龙</a></li>
<li><a href='http://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc' rel='bookmark' title='LDC上免费的中文信息处理资源'>LDC上免费的中文信息处理资源</a></li>
<li><a href='http://www.52nlp.cn/%e7%a0%96%e7%9f%b3-%e8%bf%98%e6%98%af%e9%9c%b2%e6%b0%b4' rel='bookmark' title='砖石，还是露水'>砖石，还是露水</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>哈工大语言技术平台（LTP）源代码已经于6月1号正式对外共享，这对于广大致力于中文信息处理的NLPer来说，无疑是一个好消息。以下转载自“哈工大社会计算与信息检索研究中心”的<a href="http://ir.hit.edu.cn/phpwebsite/index.php?module=announce&#038;ANN_user_op=view&#038;ANN_id=361">官方主页</a>，有需要的读者可以关注一下： </p>
<p><strong>语言技术平台（Language Technology Platform，LTP）是哈工大社会计算与信息检索研究中心历时十年开发的一整套中文语言处理系统。LTP制定了基于XML的语言处理结果表示，并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块（包括词法、句法、语义等6项中文处理核心技术），以及基于动态链接库（Dynamic Link Library, DLL）的应用程序接口，可视化工具，依存树库等语料资源，并且能够以网络服务（Web Service）的形式进行使用。</p>
<p>从2006年9月5日开始该平台对外免费共享目标代码，截止目前，已经有国内外400多家研究单位共享了LTP，也有国内外多家商业公司购买了LTP，用于实际的商业项目中。2010年12月获得中国中文信息学会颁发的行业最高奖项：”钱伟长中文信息处理科学技术奖”一等奖。</p>
<p>2011年6月1日，为了与业界同行共同研究和开发中文信息处理核心技术，我中心正式将LTP的源代码对外共享，LTP由C++语言开发，可运行于Windows和Linux操作系统。详见：http://ir.hit.edu.cn/ltp/</p>
<p>欢迎各界朋友共享！</strong></p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/niutrans-%e4%b8%80%e5%a5%97%e5%bc%80%e6%ba%90%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b9%b3%e5%8f%b0' rel='bookmark' title='NiuTrans: 一套开源的统计机器翻译平台'>NiuTrans: 一套开源的统计机器翻译平台</a></li>
<li><a href='http://www.52nlp.cn/matrix67-%e6%bc%ab%e8%af%9d%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e7%ae%97%e6%b3%95' rel='bookmark' title='Matrix67：漫话中文分词算法'>Matrix67：漫话中文分词算法</a></li>
<li><a href='http://www.52nlp.cn/%e7%ac%ac%e5%8d%81%e4%ba%8c%e5%b1%8a%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b3%b0%e4%bc%9a%e5%92%8cnist2009%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e8%af%84%e6%b5%8b%e7%ae%80%e4%bb%8b1' rel='bookmark' title='第十二届机器翻译峰会和NIST2009机器翻译评测研讨会简介1'>第十二届机器翻译峰会和NIST2009机器翻译评测研讨会简介1</a></li>
<li><a href='http://www.52nlp.cn/the-magic-of-johns-hopkins-summer-workshop' rel='bookmark' title='神奇的约翰霍普金斯夏季研讨会'>神奇的约翰霍普金斯夏季研讨会</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952' rel='bookmark' title='中文分词入门之最大匹配法扩展2'>中文分词入门之最大匹配法扩展2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96' rel='bookmark' title='中文分词入门之篇外'>中文分词入门之篇外</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/%e4%bb%a3%e5%8f%8b%e8%bd%ac%e5%8f%91-%e5%8f%91%e8%b5%b7%e6%88%90%e7%ab%8b%e4%b8%ad%e6%96%87%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%ae%9a%e6%9c%9f%e5%ad%a6%e6%9c%af%e6%b2%99%e9%be%99' rel='bookmark' title='代友转发：发起成立中文机器翻译定期学术沙龙'>代友转发：发起成立中文机器翻译定期学术沙龙</a></li>
<li><a href='http://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc' rel='bookmark' title='LDC上免费的中文信息处理资源'>LDC上免费的中文信息处理资源</a></li>
<li><a href='http://www.52nlp.cn/%e7%a0%96%e7%9f%b3-%e8%bf%98%e6%98%af%e9%9c%b2%e6%b0%b4' rel='bookmark' title='砖石，还是露水'>砖石，还是露水</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e5%93%88%e5%b7%a5%e5%a4%a7%e8%af%ad%e8%a8%80%e6%8a%80%e6%9c%af%e5%b9%b3%e5%8f%b0ltp%e6%ba%90%e4%bb%a3%e7%a0%81%e6%ad%a3%e5%bc%8f%e5%af%b9%e5%a4%96%e5%85%b1%e4%ba%ab/feed</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>From Google Research Blog: Google at ACL 2011</title>
		<link>http://www.52nlp.cn/from-google-research-blog-google-at-acl-2011</link>
		<comments>http://www.52nlp.cn/from-google-research-blog-google-at-acl-2011#comments</comments>
		<pubDate>Thu, 19 May 2011 14:23:49 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[计算语言学]]></category>
		<category><![CDATA[转载]]></category>
		<category><![CDATA[ACL]]></category>
		<category><![CDATA[ACL 2011]]></category>
		<category><![CDATA[ACL-HLT 2011]]></category>
		<category><![CDATA[Google]]></category>
		<category><![CDATA[Google Research Blog]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=4003</guid>
		<description><![CDATA[　　自然语言处理与计算语言学的盛会ACL 2011即将在美国俄勒冈州波特兰市举行，而Google Research Blog在昨天发表了一篇“Google at ACL 2011”，给大家及时通报了今年Google在ACL 2011上的参与情况。粗略的看了一下，Google今年在ACL上发表的Paper涉及Part-of-Speech Tagging, Named Entity Recognition, Context-Free Parsing, Translation等自然语言处理的基础领域，值得NLPer们一阅。我是在Google Reader上看到的，直接看原文的话在国内可能需要“翻墙”，为了给大家节省一点“翻墙”的时间以及活跃这里的气氛，以下就全文转载了！ Google at ACL 2011 Posted by Ryan McDonald and Fernando Pereira, Research Team The Annual Meeting of the Association for Computational Linguistics is one &#8230; <a href="http://www.52nlp.cn/from-google-research-blog-google-at-acl-2011">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/acl-hlt-2011-list-of-accepted-papers' rel='bookmark' title='ACL-HLT 2011: List of Accepted Papers'>ACL-HLT 2011: List of Accepted Papers</a></li>
<li><a href='http://www.52nlp.cn/acl-hlt-2011-list-of-accepted-short-papers' rel='bookmark' title='ACL-HLT 2011: List of Accepted Short Papers'>ACL-HLT 2011: List of Accepted Short Papers</a></li>
<li><a href='http://www.52nlp.cn/acl-anthology-computational-linguistics-digital-archive' rel='bookmark' title='ACL Anthology——计算语言学的数字档案'>ACL Anthology——计算语言学的数字档案</a></li>
<li><a href='http://www.52nlp.cn/googles-python-class' rel='bookmark' title='Google&#8217;s Python Class'>Google&#8217;s Python Class</a></li>
<li><a href='http://www.52nlp.cn/coling-2010-prospect' rel='bookmark' title='COLING 2010前瞻——规则与统计共舞，语言随计算齐飞'>COLING 2010前瞻——规则与统计共舞，语言随计算齐飞</a></li>
<li><a href='http://www.52nlp.cn/%e6%9b%bf%e5%af%bc%e5%b8%88%e6%8b%9b%e5%ad%a6%e7%94%9f-ph-d-research-assistant-in-machine-learning-and-nlp' rel='bookmark' title='招生：Ph.D research assistant in machine learning and NLP'>招生：Ph.D research assistant in machine learning and NLP</a></li>
<li><a href='http://www.52nlp.cn/acl-hlt-2011%e6%96%87%e7%ab%a0%e5%b7%b2%e5%8f%af%e4%b8%8b%e8%bd%bd' rel='bookmark' title='ACL HLT 2011文章已可下载'>ACL HLT 2011文章已可下载</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-%e8%af%84%e8%bf%b0%e8%8a%82%e9%80%89' rel='bookmark' title='ACL-IJCNLP 2009 评述节选'>ACL-IJCNLP 2009 评述节选</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-running-one' rel='bookmark' title='ACL-IJCNLP 2009会议进行时一'>ACL-IJCNLP 2009会议进行时一</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-common-abbreviations-acronyms' rel='bookmark' title='自然语言处理及计算语言学常见缩略语'>自然语言处理及计算语言学常见缩略语</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　自然语言处理与计算语言学的盛会ACL 2011即将在美国俄勒冈州波特兰市举行，而Google Research Blog在昨天发表了一篇“<a href="http://googleresearch.blogspot.com/2011/05/google-at-acl-2011.html">Google at ACL 2011</a>”，给大家及时通报了今年Google在ACL 2011上的参与情况。粗略的看了一下，Google今年在ACL上发表的Paper涉及Part-of-Speech Tagging, Named Entity Recognition, Context-Free Parsing, Translation等自然语言处理的基础领域，值得NLPer们一阅。我是在Google Reader上看到的，直接看原文的话在国内可能需要“翻墙”，为了给大家节省一点“翻墙”的时间以及活跃这里的气氛，以下就全文转载了！<br />
<span id="more-4003"></span></p>
<h3><a href="http://googleresearch.blogspot.com/2011/05/google-at-acl-2011.html">Google at ACL 2011</a></h3>
<p>Posted by Ryan McDonald and Fernando Pereira, Research Team</p>
<p>The Annual Meeting of the <a href="http://www.aclweb.org/">Association for Computational Linguistics</a> is one of the premier conferences for language and text technologies.  Many employees at Google have strong roots in the community of  researchers that attend this meeting, including many of our researchers  working on <a href="http://translate.google.com/#">machine translation</a> and <a href="http://www.google.com/mobile/voice-search/">speech</a>.</p>
<p>At <a href="http://www.acl2011.org/">this years conference</a>, Google is particularly well represented. The General Chair is <a href="http://research.google.com/pubs/author108.html">Dekang Lin</a> and a few Googlers are serving as technical <a href="http://www.acl2011.org/call.shtml">Area Chairs</a> (in addition to the plethora of Googlers that reviewed papers for the conference). Google is also a <a href="http://www.acl2011.org/sponsors.shtml">Platinum Sponsor</a> of ACL this year.</p>
<p>Research  advances at Google can be seen throughout the conference’s technical  content. Below is a complete list of Googler-authored or co-authored  papers in the main conference. We want to give special emphasis to this  year’s best paper award, given to  “<a href="http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/pubs/archive/37071.pdf">Unsupervised Part-of-Speech Tagging with Bilingual Graph-Based Projections</a>” by CMU graduate student and Google intern <a href="http://www.cs.cmu.edu/%7Edipanjan/Home.html">Dipanjan Das</a> and his internship advisor <a href="http://research.google.com/pubs/author38945.html">Slav Petrov</a>. ACL is an extremely selective conference and this award speaks volumes to the importance of <a href="http://googleresearch.blogspot.com/2011/03/building-resources-to-syntactically.html">syntactic analysis</a> and using bilingual corpora to project syntactic resources from  resource rich languages (like English) to other languages.  Congratulations Dipanjan and Slav!</p>
<p>Googlers are also involved in two of this year’s tutorials. <a href="http://research.google.com/pubs/author107.html">Marius Pasca</a> will present “<a href="http://www.acl2011.org/tutorials_10pasca.shtml">Web Search Queries as a Corpus</a>” and <a href="http://www.seas.upenn.edu/%7Ekuzman/">Kuzman Ganchev</a> and his colleagues will  teach about “<a href="http://www.acl2011.org/tutorials_11druck.shtml">Rich Prior Knowledge in Learning for Natural Language Processing</a>”. Finally, <a href="http://research.google.com/pubs/author39008.html">Katja Fillipova</a> and her colleagues are running a workshop on “<a href="https://sites.google.com/site/texttotext2011/">Monolingual Text-to-Text Generation</a>”.</p>
<p>ACL will take place this year in Portland from June 19th to June 24th.</p>
<p>Papers by Googlers (a * indicates a paper that will be linked to after the conference):</p>
<p>Ranking Class Labels Using Query Sessions*<br />
Marius Pasca</p>
<p>Fine-Grained Class Label Markup of Search Queries*<br />
Joseph Reisinger and Marius Pasca</p>
<p><a href="http://www.petrovi.de/data/acl11.pdf">Unsupervised Part-of-Speech Tagging with Bilingual Graph-Based Projections</a><br />
Dipanjan Das and Slav Petrov</p>
<p><a href="http://1458142612872649252-a-1802744773732722657-s-sites.googlegroups.com/site/amarsubramanya/home/Pubs/clustorie-acl.pdf?attachauth=ANoY7cqSwbXkxnmC9UA62cXItr_zzOZLbemzaMAKbVxiChjOfEOViCt6MELyu2ezRn-8mDBfaRdmBsPnW75r9VZz1_C0rZ2Yq0HkdvnEMIkMN9vs1LiTIQ5jnGKX8vJyNISCE0O1S2RnwlEL3Kd1PLDym8Pc6mOTO-z3QBtBLLjLmZqyH4FJ_DSCIywZn0djcJl1ATp5Ft5Rr7YV6W-NDDT-gJmtUTJBkCZUvD21E1lXFrb3hpNbBE4%3D&amp;attredirects=1">Large-Scale Cross-Document Coreference Using Distributed Inference and Hierarchical Models</a><br />
Sameer Singh, Amarnag Subramanya, Fernando Pereira and Andrew McCallum</p>
<p><a href="http://www.ims.uni-stuttgart.de/%7Eschuetze/piggyback11/piggyback11.pdf">Piggyback: Using Search Engines for Robust Cross-Domain Named Entity Recognition</a><br />
Stefan Rüd, Massimiliano Ciaramita, Jens Müller and Hinrich Schütze</p>
<p><a href="http://www.csee.ogi.edu/%7Ebodensta/2011-beam-predict.pdf">Beam-Width Prediction for Efficient Context-Free Parsing</a><br />
Nathan Bodenstab, Aaron Dunlop, Keith Hall and Brian Roark</p>
<p><a href="http://research.mtv.corp.google.com:4444/pubversion?fp=7092811193925625484">Language-independent compound splitting with morphological operations</a><br />
Klaus Macherey, Andrew Dai, David Talbot, Ashok Popat and Franz Och</p>
<p><a href="http://www.denero.org/content/pubs/acl11_denero_dual.pdf">Model-Based Aligner Combination Using Dual Decomposition</a><br />
John DeNero and Klaus Macherey</p>
<p><a href="http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/pubs/archive/37011.pdf">Binarized Forest to String Translation</a><br />
Hao Zhang, Licheng Fang, Peng Xu and Xiaoyun Wu</p>
<p><a href="http://www.ryanmcd.com/papers/ssl-sentiment-acl2011.pdf">Semi-supervised Latent Variable Models for Fine-grained Sentiment Analysis</a><br />
Oscar Tackstrom and Ryan McDonald</p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/acl-hlt-2011-list-of-accepted-papers' rel='bookmark' title='ACL-HLT 2011: List of Accepted Papers'>ACL-HLT 2011: List of Accepted Papers</a></li>
<li><a href='http://www.52nlp.cn/acl-hlt-2011-list-of-accepted-short-papers' rel='bookmark' title='ACL-HLT 2011: List of Accepted Short Papers'>ACL-HLT 2011: List of Accepted Short Papers</a></li>
<li><a href='http://www.52nlp.cn/acl-anthology-computational-linguistics-digital-archive' rel='bookmark' title='ACL Anthology——计算语言学的数字档案'>ACL Anthology——计算语言学的数字档案</a></li>
<li><a href='http://www.52nlp.cn/googles-python-class' rel='bookmark' title='Google&#8217;s Python Class'>Google&#8217;s Python Class</a></li>
<li><a href='http://www.52nlp.cn/coling-2010-prospect' rel='bookmark' title='COLING 2010前瞻——规则与统计共舞，语言随计算齐飞'>COLING 2010前瞻——规则与统计共舞，语言随计算齐飞</a></li>
<li><a href='http://www.52nlp.cn/%e6%9b%bf%e5%af%bc%e5%b8%88%e6%8b%9b%e5%ad%a6%e7%94%9f-ph-d-research-assistant-in-machine-learning-and-nlp' rel='bookmark' title='招生：Ph.D research assistant in machine learning and NLP'>招生：Ph.D research assistant in machine learning and NLP</a></li>
<li><a href='http://www.52nlp.cn/acl-hlt-2011%e6%96%87%e7%ab%a0%e5%b7%b2%e5%8f%af%e4%b8%8b%e8%bd%bd' rel='bookmark' title='ACL HLT 2011文章已可下载'>ACL HLT 2011文章已可下载</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-%e8%af%84%e8%bf%b0%e8%8a%82%e9%80%89' rel='bookmark' title='ACL-IJCNLP 2009 评述节选'>ACL-IJCNLP 2009 评述节选</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-running-one' rel='bookmark' title='ACL-IJCNLP 2009会议进行时一'>ACL-IJCNLP 2009会议进行时一</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-common-abbreviations-acronyms' rel='bookmark' title='自然语言处理及计算语言学常见缩略语'>自然语言处理及计算语言学常见缩略语</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/from-google-research-blog-google-at-acl-2011/feed</wfw:commentRss>
		<slash:comments>6</slash:comments>
		</item>
		<item>
		<title>立委科普：问答系统的前生今世</title>
		<link>http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e7%a7%91%e6%99%ae-%e9%97%ae%e7%ad%94%e7%b3%bb%e7%bb%9f%e7%9a%84%e5%89%8d%e7%94%9f%e4%bb%8a%e4%b8%96</link>
		<comments>http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e7%a7%91%e6%99%ae-%e9%97%ae%e7%ad%94%e7%b3%bb%e7%bb%9f%e7%9a%84%e5%89%8d%e7%94%9f%e4%bb%8a%e4%b8%96#comments</comments>
		<pubDate>Sun, 24 Apr 2011 14:53:02 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[转载]]></category>
		<category><![CDATA[问答系统]]></category>
		<category><![CDATA[IBM]]></category>
		<category><![CDATA[李维]]></category>
		<category><![CDATA[自动问答]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=3952</guid>
		<description><![CDATA[李维老师的文章看起来就是过瘾，这篇文章也是刚刚在科学网上看到的，还有下一篇，感兴趣的读者可以继续关注。前段时间IBM超级计算机沃森（Watson）刚刚出了一把风头，也让关注自然语言处理的读者更关注起自动问答系统了，李维老师的这篇博文无疑让我们对于问答系统的前世今生又有了一次深刻的了解，所以厚着脸皮，以下继续全文转载自李维老师的博文：立委科普：问答系统的前生今世。 上周信笔涂鸦写了个不伦不类的科普（【立委科普：从产业角度说说NLP这个行当】），写完自我感觉尚可，于是毛遂自荐要求加精：“自顶一哈：不用谦虚，这个应该加精。也不枉我费了大半天的时辰。” 本来是玩笑话，没成想科网的编辑MM在两小时内就真地加精上首页了。前几周还在抱怨，怕被编辑打入另册，正琢磨献花还是金币以求青睐，没想到这么快就峰回路转，春暖花开。响鼓不用重敲，原来还是要发奋码字才行，花言巧语的不行。得，一鼓作气，再码两篇。 言归正传，第一篇先介绍一下问答系统（Question Answering system）的来龙去脉。第二篇专事讲解问答系统中的三大难题 What，How 与 Why。 一 前生 传统的问答系统是人工智能（AI: Artificial Intelligence）领域的一个应用，通常局限于一个非常狭窄专门的领域，基本上是由人工编制的知识库加上一个自然语言接口而成。由于领域狭窄，词汇总量很有限，其语言和语用的歧义问题可以得到有效的控制。问题是可以预测的，甚至是封闭的集合，合成相应的答案自然有律可循。著名的项目有上个世纪60 年代研制的LUNAR系统，专事回答有关阿波罗登月返回的月球岩石样本的地质分析问题。SHRDLE 是另一个基于人工智能的专家系统，模拟的是机器人在玩具积木世界中的操作，机器人可以回答这个玩具世界的几何状态的问题，并听从语言指令进行合法操作。这些早期的AI探索看上去很精巧，揭示了一个有如科学幻想的童话世界，启发人的想象力和好奇心，但是本质上这些都是局限于实验室的玩具系统（toy systems），完全没有实用的可能和产业价值。随着作为领域的人工智能之路越走越窄（部分专家系统虽然达到了实用，基于常识和知识推理的系统则举步维艰），寄生其上的问答系统也基本无疾而终。倒是有一些机器与人的对话交互系统 （chatterbots）一路发展下来至今，成为孩子们的网上玩具（我的女儿就很喜欢上网找机器人对话，有时故意问一些刁钻古怪的问题，程序应答对路的时候，就夸奖它一句，但更多的时候是看着机器人出丑而哈哈大笑。不过，我个人相信这个路子还大有潜力可挖，把语言学与心理学知识交融，应该可以编制出质量不错的机器人心理治疗师。其实在当今的高节奏高竞争的时代，很多人面对压力需要舒缓，很多时候只是需要一个忠实的倾听者，这样的系统可以帮助满足这个社会需求。要紧的是要消除使用者 “对牛弹琴”的先入为主的偏见，或者设法巧妙隐瞒机器人的身份，使得对话可以敞开心扉。扯远了，打住。） 二 重生 产业意义上的开放式问答系统完全是另一条路子，它是随着互联网的发展以及搜索引擎的普及应运而生的。准确地说，开放式问答系统诞生于1999年，那一年搜索业界的第八届年会（TREC-8：Text REtrieval Conference）决定增加一个问答系统的竞赛，美国国防部有名的DARPA项目资助，由美国国家标准局组织实施，从而催生了这一新兴的问答系统及其 community。问答系统竞赛的广告词写得非常精彩，恰到好处地指出搜索引擎的不足，确立了问答系统在搜索领域的位置。记得是这样写的（大体）：用户有问题，他们需要答案。搜索引擎声称自己做的是信息检索（information retrieval），其实检索出来的并不是所求信息，而只是成千上万相关文件的链接（URLs），答案可能在也可能不在这些文件中。无论如何，总是要求人去阅读这些文件，才能寻得答案。问答系统正是要解决这个信息搜索的关键问题。对于问答系统，输入的是问题，输出的是答案，就是这么简单。 说到这里，有必要先介绍一下开放式问答系统诞生时候的学界与业界的背景。 从学界看，传统意义上的人工智能已经不再流行，代之而来的是大规模真实语料库基础上的机器学习和统计研究。语言学意义上的规则系统仍在自然语言领域发挥作用，作为机器学习的补充，而纯粹基于知识和推理的所谓智能规则系统基本被学界抛弃（除了少数学者的执着，譬如Douglas Lenat 的 Cyc）。学界在开放式问答系统诞生之前还有一个非常重要的发展，就是信息抽取（Information Extraction）专业方向及其community的发展壮大。与传统的自然语言理解（Natural Language Understanding）面对整个语言的海洋，试图分析每个语句求其语义不同，信息抽取是任务制导，任务之外的语义没有抽取的必要和价值：每个任务定义为一个预先设定的所求信息的表格，譬如，会议这个事件的表格需要填写会议主题、时间、地点、参加者等信息，类似于测试学生阅读理解的填空题。这样的任务制导的思路一下子缩短了语言技术与实用的距离，使得研究人员可以集中精力按照任务指向来优化系统，而不是从前那样面面俱到，试图一口吞下语言这个大象。到 1999年，信息抽取的竞赛及其研讨会已经举行了七届（MUC-7：Message Understanding Conference），也是美国DARPA项目的资助产物（如果说DARPA引领了美国信息产业研究及其实用化的潮流，一点儿也不过誉），这个领域的任务、方法与局限也比较清晰了。发展得最成熟的信息抽取技术是所谓实体名词的自动标注（Named Entity：NE tagging），包括人名、地名、机构名、时间、百分比等等。其中优秀的系统无论是使用机器学习的方法，还是编制语言规则的方法，其查准率查全率的综合指标都已高达90%左右，接近于人工标注的质量。这一先行的年轻领域的技术进步为新一代问答系统的起步和开门红起到了关键的作用。 到 &#8230; <a href="http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e7%a7%91%e6%99%ae-%e9%97%ae%e7%ad%94%e7%b3%bb%e7%bb%9f%e7%9a%84%e5%89%8d%e7%94%9f%e4%bb%8a%e4%b8%96">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e7%a7%91%e6%99%ae-%e4%bb%8e%e4%ba%a7%e4%b8%9a%e8%a7%92%e5%ba%a6%e8%af%b4%e8%af%b4nlp%e8%bf%99%e4%b8%aa%e8%a1%8c%e5%bd%93' rel='bookmark' title='立委科普：从产业角度说说NLP这个行当'>立委科普：从产业角度说说NLP这个行当</a></li>
<li><a href='http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e9%9a%8f%e7%ac%94-%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0%e5%92%8c%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86' rel='bookmark' title='立委随笔：机器学习和自然语言处理'>立委随笔：机器学习和自然语言处理</a></li>
<li><a href='http://www.52nlp.cn/%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86%e5%af%b9%e4%ba%8eibm%e8%b6%85%e7%ba%a7%e8%ae%a1%e7%ae%97%e6%9c%ba%e6%b2%83%e6%a3%aewatson%e6%84%8f%e5%91%b3%e7%9d%80%e4%bb%80' rel='bookmark' title='自然语言处理对于IBM超级计算机沃森（Watson）意味着什么？'>自然语言处理对于IBM超级计算机沃森（Watson）意味着什么？</a></li>
<li><a href='http://www.52nlp.cn/sir' rel='bookmark' title='再说苹果爱疯的贴身小蜜 死日（Siri）'>再说苹果爱疯的贴身小蜜 死日（Siri）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-third-part' rel='bookmark' title='MIT自然语言处理第三讲：概率语言模型（第三部分）'>MIT自然语言处理第三讲：概率语言模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mapreduce%e4%b8%8e%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86' rel='bookmark' title='MapReduce与自然语言处理'>MapReduce与自然语言处理</a></li>
<li><a href='http://www.52nlp.cn/%e7%a0%96%e7%9f%b3-%e8%bf%98%e6%98%af%e9%9c%b2%e6%b0%b4' rel='bookmark' title='砖石，还是露水'>砖石，还是露水</a></li>
<li><a href='http://www.52nlp.cn/acl-hlt-2011-list-of-accepted-short-papers' rel='bookmark' title='ACL-HLT 2011: List of Accepted Short Papers'>ACL-HLT 2011: List of Accepted Short Papers</a></li>
<li><a href='http://www.52nlp.cn/from-google-research-blog-google-at-acl-2011' rel='bookmark' title='From Google Research Blog: Google at ACL 2011'>From Google Research Blog: Google at ACL 2011</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-machine-translation-faq' rel='bookmark' title='自然语言处理与机器翻译FAQ'>自然语言处理与机器翻译FAQ</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><strong>李维老师的文章看起来就是过瘾，这篇文章也是刚刚在科学网上看到的，还有下一篇，感兴趣的读者可以继续关注。前段时间<a href="http://www.52nlp.cn/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%E5%AF%B9%E4%BA%8Eibm%E8%B6%85%E7%BA%A7%E8%AE%A1%E7%AE%97%E6%9C%BA%E6%B2%83%E6%A3%AEwatson%E6%84%8F%E5%91%B3%E7%9D%80%E4%BB%80">IBM超级计算机沃森（Watson）</a>刚刚出了一把风头，也让关注自然语言处理的读者更关注起自动问答系统了，李维老师的这篇博文无疑让我们对于问答系统的前世今生又有了一次深刻的了解，所以厚着脸皮，以下继续全文转载自李维老师的博文：<a href="http://blog.sciencenet.cn/home.php?mod=space&#038;uid=362400&#038;do=blog&#038;id=436555">立委科普：问答系统的前生今世</a>。</strong></p>
<p>上周信笔涂鸦写了个不伦不类的科普（【立委科普：从产业角度说说NLP这个行当】），写完自我感觉尚可，于是毛遂自荐要求加精：“自顶一哈：不用谦虚，这个应该加精。也不枉我费了大半天的时辰。” 本来是玩笑话，没成想科网的编辑MM在两小时内就真地加精上首页了。前几周还在抱怨，怕被编辑打入另册，正琢磨献花还是金币以求青睐，没想到这么快就峰回路转，春暖花开。响鼓不用重敲，原来还是要发奋码字才行，花言巧语的不行。得，一鼓作气，再码两篇。</p>
<p>言归正传，第一篇先介绍一下问答系统（Question Answering system）的来龙去脉。第二篇专事讲解问答系统中的三大难题 What，How 与 Why。</p>
<p>一 前生</p>
<p>传统的问答系统是人工智能（AI: Artificial Intelligence）领域的一个应用，通常局限于一个非常狭窄专门的领域，基本上是由人工编制的知识库加上一个自然语言接口而成。由于领域狭窄，词汇总量很有限，其语言和语用的歧义问题可以得到有效的控制。问题是可以预测的，甚至是封闭的集合，合成相应的答案自然有律可循。著名的项目有上个世纪60 年代研制的LUNAR系统，专事回答有关阿波罗登月返回的月球岩石样本的地质分析问题。SHRDLE 是另一个基于人工智能的专家系统，模拟的是机器人在玩具积木世界中的操作，机器人可以回答这个玩具世界的几何状态的问题，并听从语言指令进行合法操作。这些早期的AI探索看上去很精巧，揭示了一个有如科学幻想的童话世界，启发人的想象力和好奇心，但是本质上这些都是局限于实验室的玩具系统（toy systems），完全没有实用的可能和产业价值。随着作为领域的人工智能之路越走越窄（部分专家系统虽然达到了实用，基于常识和知识推理的系统则举步维艰），寄生其上的问答系统也基本无疾而终。倒是有一些机器与人的对话交互系统 （chatterbots）一路发展下来至今，成为孩子们的网上玩具（我的女儿就很喜欢上网找机器人对话，有时故意问一些刁钻古怪的问题，程序应答对路的时候，就夸奖它一句，但更多的时候是看着机器人出丑而哈哈大笑。不过，我个人相信这个路子还大有潜力可挖，把语言学与心理学知识交融，应该可以编制出质量不错的机器人心理治疗师。其实在当今的高节奏高竞争的时代，很多人面对压力需要舒缓，很多时候只是需要一个忠实的倾听者，这样的系统可以帮助满足这个社会需求。要紧的是要消除使用者 “对牛弹琴”的先入为主的偏见，或者设法巧妙隐瞒机器人的身份，使得对话可以敞开心扉。扯远了，打住。）<br />
<span id="more-3952"></span><br />
二 重生</p>
<p>产业意义上的开放式问答系统完全是另一条路子，它是随着互联网的发展以及搜索引擎的普及应运而生的。准确地说，开放式问答系统诞生于1999年，那一年搜索业界的第八届年会（TREC-8：Text REtrieval Conference）决定增加一个问答系统的竞赛，美国国防部有名的DARPA项目资助，由美国国家标准局组织实施，从而催生了这一新兴的问答系统及其 community。问答系统竞赛的广告词写得非常精彩，恰到好处地指出搜索引擎的不足，确立了问答系统在搜索领域的位置。记得是这样写的（大体）：用户有问题，他们需要答案。搜索引擎声称自己做的是信息检索（information retrieval），其实检索出来的并不是所求信息，而只是成千上万相关文件的链接（URLs），答案可能在也可能不在这些文件中。无论如何，总是要求人去阅读这些文件，才能寻得答案。问答系统正是要解决这个信息搜索的关键问题。对于问答系统，输入的是问题，输出的是答案，就是这么简单。</p>
<p>说到这里，有必要先介绍一下开放式问答系统诞生时候的学界与业界的背景。</p>
<p>从学界看，传统意义上的人工智能已经不再流行，代之而来的是大规模真实语料库基础上的机器学习和统计研究。语言学意义上的规则系统仍在自然语言领域发挥作用，作为机器学习的补充，而纯粹基于知识和推理的所谓智能规则系统基本被学界抛弃（除了少数学者的执着，譬如Douglas Lenat 的 Cyc）。学界在开放式问答系统诞生之前还有一个非常重要的发展，就是信息抽取（Information Extraction）专业方向及其community的发展壮大。与传统的自然语言理解（Natural Language Understanding）面对整个语言的海洋，试图分析每个语句求其语义不同，信息抽取是任务制导，任务之外的语义没有抽取的必要和价值：每个任务定义为一个预先设定的所求信息的表格，譬如，会议这个事件的表格需要填写会议主题、时间、地点、参加者等信息，类似于测试学生阅读理解的填空题。这样的任务制导的思路一下子缩短了语言技术与实用的距离，使得研究人员可以集中精力按照任务指向来优化系统，而不是从前那样面面俱到，试图一口吞下语言这个大象。到 1999年，信息抽取的竞赛及其研讨会已经举行了七届（MUC-7：Message Understanding Conference），也是美国DARPA项目的资助产物（如果说DARPA引领了美国信息产业研究及其实用化的潮流，一点儿也不过誉），这个领域的任务、方法与局限也比较清晰了。发展得最成熟的信息抽取技术是所谓实体名词的自动标注（Named Entity：NE tagging），包括人名、地名、机构名、时间、百分比等等。其中优秀的系统无论是使用机器学习的方法，还是编制语言规则的方法，其查准率查全率的综合指标都已高达90%左右，接近于人工标注的质量。这一先行的年轻领域的技术进步为新一代问答系统的起步和开门红起到了关键的作用。</p>
<p>到 1999年，从产业来看，搜索引擎随着互联网的普及而长足发展，根据关键词匹配以及页面链接为基础的搜索算法基本成熟定型，除非有方法学上的革命，关键词检索领域该探索的方方面面已经差不多到头了。由于信息爆炸时代对于搜索技术的期望永无止境，搜索业界对关键词以外的新技术的呼声日高。用户对粗疏的搜索结果越来越不满意，社会需求要求搜索结果的细化（more granular results），至少要以段落为单位（snippet）代替文章（URL）为单位，最好是直接给出答案，不要拖泥带水。虽然直接给出答案需要等待问答系统的研究成果，但是从全文检索细化到段落检索的工作已经在产业界实行，搜索的常规结果正从简单的网页链接进化到 highlight 了搜索关键词的一个个段落。</p>
<p>新式问答系统的研究就在这样一种业界急切呼唤、学界奠定了一定基础的形势下，走上历史舞台。美国标准局的测试要求系统就每一个问题给出最佳的答案，有短答案(不超过50字节)与长答案（不超过250字节）两种。下面是第一次问答竞赛的试题样品：</p>
<p>Who was the first American in space?<br />
Where is the Taj Mahal?<br />
In what year did Joe DiMaggio compile his 56-game hitting streak?</p>
<p>三 奇迹</p>
<p>这次问答系统竞赛的结果与意义如何呢？应该说是结果良好，意义重大。最好的系统达到60%多的正确率，就是说每三个问题，系统可以从语言文档中大海捞针一样搜寻出两个正确答案。作为学界开放式系统的第一次尝试，这是非常令人鼓舞的结果。当时正是 dot com 的鼎盛时期，IT 业界渴望把学界的这一最新研究转移到信息产品中，实现搜索的革命性转变。里面有很多有趣的故事，参见我的相关博文：《朝华午拾：创业之路》。</p>
<p>回顾当年的工作，可以发现是组织者、学界和业界的天时地利促成了问答系统奇迹般的立竿见影的效果。美国标准局在设计问题的时候，强调的是自然语言的问题（English questions，见上），而不是简单的关键词 queries，其结果是这些问句偏长，非常适合做段落检索。为了保证每个问题都有答案，他们议定问题的时候针对语言资料库做了筛选。这样一来，文句与文本必然有相似的语句对应，客观上使得段落匹配（乃至语句匹配）命中率很高。设想如果只是一两个关键词，寻找相关的可能含有答案的段落和语句就困难许多。当然找到对应的段落或语句，只是大大缩小了寻找答案的范围，只是问答系统的第一步，要真正锁定答案，还需要进一步细化，pinpoint 到语句中那个作为答案的词或词组。这时候，信息抽取学界已经成熟的实名标注技术正好起到了这个作用。为了力求问答系统竞赛的客观性，组织者有意选择那些答案比较单纯的问题，譬如人名、时间、地点等。这恰好对应了实名标注的对象，使得先行一步的这项技术有了施展身手之地。譬如对于问题 “In what year did Joe DiMaggio compile his 56-game hitting streak?”，段落语句搜索很容易找到类似下列的文本语句：Joe DiMaggio&#8217;s 56 game hitting streak was between May 15, 1941 and July 16, 1941.  实名标注系统也很容易锁定 1941 这个时间单位。An exact answer to the exact question，答案就这样在海量文档中被搜得，好像大海捞针一般神奇。沿着这个路子，11 年后的 IBM 成功地研制出打败人脑的电脑问答系统，获得了电视智能大奖赛 Jeopardy! 的冠军（见报道 COMPUTER CRUSHES HUMAN &#8216;JEOPARDY!&#8217; CHAMPS），在全美观众面前大大地出了一次风头，有如当年电脑程序第一次赢得棋赛冠军那样激动人心。</p>
<p>当年成绩较好的问答系统，都不约而同地结合了实名标注与段落搜索的技术： 证明了只要有海量文档，snippet+NE 技术可以自动搜寻回答简单的问题。 </p>
<p>四 现状</p>
<p>1999 年的学界在问答系统上初战告捷，我们作为成功者也风光一时，下自成蹊，业界风险投资商蜂拥而至。很快拿到了华尔街千万美元的风险资金，当时的感觉真地好像是在开创工业革命的新纪元。可惜好景不长，互联网泡沫破灭，IT 产业跌入了萧条的深渊，久久不能恢复。投资商急功近利，收紧银根，问答系统也从业界的宠儿变成了弃儿（见《朝华午拾 &#8211; 水牛风云》）。主流业界没人看好这项技术，比起传统的关键词索引和搜索，问答系统显得不稳定、太脆弱（not robust），也很难 scale up, 业界的重点从深度转向广度，集中精力增加索引涵盖面，包括所谓 deep web。问答系统的研制从业界几乎绝迹，但是这一新兴领域却在学界发芽生根，不断发展着，成为自然语言研究的一个重要分支。IBM 后来也解决了 scale up （用成百上千机器做分布式并行处理）和适应性培训的问题，为赢得大奖赛做好了技术准备。同时，学界也开始总结问答系统的各种类型。一种常见的分类是根据问题的种类。</p>
<p>我们很多人都在中学语文课上，听老师强调过阅读理解要抓住几个WH的重要性：who/what/when/where/how/why（Who did what when, where, how and why?）.  抓住了这些WH，也就抓住了文章的中心内容。作为对人的阅读理解的仿真，设计问答系统也正是为了回答这些WH的问题。值得注意的是，这些 WH 问题有难有易，大体可以分成两类：有些WH对应的是实体专名，譬如 who/when/where，回答这类问题相对容易，技术已经成熟。另一类问题则不然，譬如what/how/why，回答这样的问题是对问答学界的挑战。简单介绍一下这三大难题如下。</p>
<p>What is X？类型的问题是所谓定义问题，譬如 What is iPad II? (也包括作为定义的who：Who is Bill Clinton?) 。这一类问题的特点是问题短小，除去问题词What与联系词 is 以外 （搜索界叫stop words，搜索前应该滤去的，问答系统在搜索前利用它理解问题的类型），只有一个 X 作为输入，非常不利于传统的关键词检索。回答这类问题最低的要求是一个有外延和种属的定义语句（而不是一个词或词组）。由于任何人或物体都是处在与其他实体的多重关系之中（还记得么，马克思说人是社会关系的总和），要想真正了解这个实体，比较完美地回答这个问题，一个简单的定义是不够的，最好要把这个实体的所有关键信息集中起来，给出一个全方位的总结（就好比是人的履历表与公司的简介一样），才可以说是真正回答了 What/Who is X 的问题。显然，做到这一步不容易，传统的关键词搜索完全无能为力，倒是深度信息抽取可以帮助达到这个目标，要把散落在文档各处的所有关键信息抽取出来，加以整合才有希望（【立委科普：信息抽取】）。</p>
<p>How 类型的问题也不好回答，它搜寻的是解决方案。同一个问题，往往有多种解决档案，譬如治疗一个疾病，可以用各类药品，也可以用其他疗法。因此，比较完美地回答这个 How 类型的问题也就成为问答界公认的难题之一。</p>
<p>Why 类型的问题，是要寻找一个现象的缘由或动机。这些原因有显性表达，更多的则是隐性表达，而且几乎所有的原因都不是简单的词或短语可以表达清楚的，找到这些答案，并以合适的方式整合给用户，自然是一个很大的难题。</p>
<p>下一个姐妹篇《立委科普：自动回答 How 与 Why 的问题》准备详细谈谈后两个难题。这篇已经太长，收住吧。希望读者您觉得不太枯燥，如果有所收获，则幸甚。谢谢您的阅览。</p>
<p>参考文献：</p>
<p>http://en.wikipedia.org/wiki/Question_answering</p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e7%a7%91%e6%99%ae-%e4%bb%8e%e4%ba%a7%e4%b8%9a%e8%a7%92%e5%ba%a6%e8%af%b4%e8%af%b4nlp%e8%bf%99%e4%b8%aa%e8%a1%8c%e5%bd%93' rel='bookmark' title='立委科普：从产业角度说说NLP这个行当'>立委科普：从产业角度说说NLP这个行当</a></li>
<li><a href='http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e9%9a%8f%e7%ac%94-%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0%e5%92%8c%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86' rel='bookmark' title='立委随笔：机器学习和自然语言处理'>立委随笔：机器学习和自然语言处理</a></li>
<li><a href='http://www.52nlp.cn/%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86%e5%af%b9%e4%ba%8eibm%e8%b6%85%e7%ba%a7%e8%ae%a1%e7%ae%97%e6%9c%ba%e6%b2%83%e6%a3%aewatson%e6%84%8f%e5%91%b3%e7%9d%80%e4%bb%80' rel='bookmark' title='自然语言处理对于IBM超级计算机沃森（Watson）意味着什么？'>自然语言处理对于IBM超级计算机沃森（Watson）意味着什么？</a></li>
<li><a href='http://www.52nlp.cn/sir' rel='bookmark' title='再说苹果爱疯的贴身小蜜 死日（Siri）'>再说苹果爱疯的贴身小蜜 死日（Siri）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-third-part' rel='bookmark' title='MIT自然语言处理第三讲：概率语言模型（第三部分）'>MIT自然语言处理第三讲：概率语言模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mapreduce%e4%b8%8e%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86' rel='bookmark' title='MapReduce与自然语言处理'>MapReduce与自然语言处理</a></li>
<li><a href='http://www.52nlp.cn/%e7%a0%96%e7%9f%b3-%e8%bf%98%e6%98%af%e9%9c%b2%e6%b0%b4' rel='bookmark' title='砖石，还是露水'>砖石，还是露水</a></li>
<li><a href='http://www.52nlp.cn/acl-hlt-2011-list-of-accepted-short-papers' rel='bookmark' title='ACL-HLT 2011: List of Accepted Short Papers'>ACL-HLT 2011: List of Accepted Short Papers</a></li>
<li><a href='http://www.52nlp.cn/from-google-research-blog-google-at-acl-2011' rel='bookmark' title='From Google Research Blog: Google at ACL 2011'>From Google Research Blog: Google at ACL 2011</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-machine-translation-faq' rel='bookmark' title='自然语言处理与机器翻译FAQ'>自然语言处理与机器翻译FAQ</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e7%a7%91%e6%99%ae-%e9%97%ae%e7%ad%94%e7%b3%bb%e7%bb%9f%e7%9a%84%e5%89%8d%e7%94%9f%e4%bb%8a%e4%b8%96/feed</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
		<item>
		<title>立委科普：从产业角度说说NLP这个行当</title>
		<link>http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e7%a7%91%e6%99%ae-%e4%bb%8e%e4%ba%a7%e4%b8%9a%e8%a7%92%e5%ba%a6%e8%af%b4%e8%af%b4nlp%e8%bf%99%e4%b8%aa%e8%a1%8c%e5%bd%93</link>
		<comments>http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e7%a7%91%e6%99%ae-%e4%bb%8e%e4%ba%a7%e4%b8%9a%e8%a7%92%e5%ba%a6%e8%af%b4%e8%af%b4nlp%e8%bf%99%e4%b8%aa%e8%a1%8c%e5%bd%93#comments</comments>
		<pubDate>Sat, 23 Apr 2011 05:36:04 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[转载]]></category>
		<category><![CDATA[李维]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=3944</guid>
		<description><![CDATA[“NLP is not magic, but the results you can get sometimes seem almost magical.” 这篇文章是前几天在科学网李维老师的博客上看到的，写得很棒，没有在NLP产业摸爬滚打几十年，是写不出的，这里全文转载，原文见科学网博客, 以下转载自李维老师的博文：立委科普：从产业角度说说NLP这个行当 前面一篇博文的本意，是想借题发挥，从工业运用的角度说说 NLP（Natural Language Processing：自然语言处理）这个行当。不好意思，我算是这个行当在工业界的老古董了（学界不算，学界有的是NLP师爷和大牛）。跟我同期学习这行的同门学长们有小20位，由于这个行当不能在工业界形成规模，他们无一例外都在不同时期改行了，我几乎是幸存在工业界的仅有的化石级元老，赶上了工业应用的末班车。我运气比较好，1986年硕士毕业不久就兼职中关村搞机器翻译的开发，1997年博士快结束又赶上了dot康泡沫的美国大跃进，技术资金源源不断。就是在泡沫破灭后的萧条年代，我也一直对这一行抱有信心，但是从来没有像现在这样信心满满。我的预计，今后20年是 NLP 大显神威的时机，NLP 技术支撑的包括搜索在内的各类信息系统是真正的朝阳产业。（卖瓜的说瓜甜，据说连饶教授这样的大牛都不免。所以读者诸君为免在下误导，可在此打个折扣。） NLP 技术的工业可行性我认为已经完全被证明了（很多人也许还没有意识到）。证明的实例表现在我们解决了三个信息搜索的难题：1 是解决了搜索 how 的难题；2 是解决了搜索 why 的难题；3 是解决了对客户反馈情报及其动机的抽提（譬如客户对一个产品的好恶）。前两个问题是问答搜索业界公认的最难类型的题目，第三个题目涉及的是语言现象中较难把握的主观性言语（subjective language），并非NLP通常面对的对象（objective language，事实描述的客观性言语），因此成为语言处理最难的课题之一（叫 sentiment extraction）。从问答系统角度来看，回答who/when/where等实体（entity）事实（factoid）的问题比较简单，技术相对成熟，最突出的表现就是IBM的问答系统赢得美国家喻户晓的电视智力竞赛Jeopardy的冠军，电脑打败了人脑，见 COMPUTER CRUSHES HUMAN &#8216;JEOPARDY!&#8217; &#8230; <a href="http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e7%a7%91%e6%99%ae-%e4%bb%8e%e4%ba%a7%e4%b8%9a%e8%a7%92%e5%ba%a6%e8%af%b4%e8%af%b4nlp%e8%bf%99%e4%b8%aa%e8%a1%8c%e5%bd%93">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e7%a7%91%e6%99%ae-%e9%97%ae%e7%ad%94%e7%b3%bb%e7%bb%9f%e7%9a%84%e5%89%8d%e7%94%9f%e4%bb%8a%e4%b8%96' rel='bookmark' title='立委科普：问答系统的前生今世'>立委科普：问答系统的前生今世</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part' rel='bookmark' title='MIT自然语言处理第二讲：单词计数（第四部分）'>MIT自然语言处理第二讲：单词计数（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/%e8%bf%bd%e5%bf%86%e5%a4%a7%e5%b8%88%e8%b4%be%e9%87%8c%e5%b0%bc%e5%85%8b' rel='bookmark' title='追忆大师贾里尼克'>追忆大师贾里尼克</a></li>
<li><a href='http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e9%9a%8f%e7%ac%94-%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0%e5%92%8c%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86' rel='bookmark' title='立委随笔：机器学习和自然语言处理'>立委随笔：机器学习和自然语言处理</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86%e5%af%b9%e4%ba%8eibm%e8%b6%85%e7%ba%a7%e8%ae%a1%e7%ae%97%e6%9c%ba%e6%b2%83%e6%a3%aewatson%e6%84%8f%e5%91%b3%e7%9d%80%e4%bb%80' rel='bookmark' title='自然语言处理对于IBM超级计算机沃森（Watson）意味着什么？'>自然语言处理对于IBM超级计算机沃森（Watson）意味着什么？</a></li>
<li><a href='http://www.52nlp.cn/acl-2010-best-paper-awards' rel='bookmark' title='ACL 2010 Best Paper Awards'>ACL 2010 Best Paper Awards</a></li>
<li><a href='http://www.52nlp.cn/acl09-acceptance-rates-by-areas' rel='bookmark' title='ACL09 Full Paper各研究领域的录用情况'>ACL09 Full Paper各研究领域的录用情况</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952' rel='bookmark' title='中文分词入门之字标注法2'>中文分词入门之字标注法2</a></li>
<li><a href='http://www.52nlp.cn/%e7%a0%96%e7%9f%b3-%e8%bf%98%e6%98%af%e9%9c%b2%e6%b0%b4' rel='bookmark' title='砖石，还是露水'>砖石，还是露水</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><strong>“NLP is not magic, but the results you can get sometimes seem almost magical.”</strong></p>
<p>这篇文章是前几天在科学网<a href="http://blog.sciencenet.cn/home.php?mod=space&#038;uid=362400">李维老师的博客</a>上看到的，写得很棒，没有在NLP产业摸爬滚打几十年，是写不出的，这里全文转载，原文见科学网博客, 以下转载自李维老师的博文：<a href="http://blog.sciencenet.cn/home.php?mod=space&#038;uid=362400&#038;do=blog&#038;id=434811&#038;page=2">立委科普：从产业角度说说NLP这个行当</a></p>
<p>前面一篇博文的本意，是想借题发挥，从工业运用的角度说说 NLP（Natural Language Processing：自然语言处理）这个行当。不好意思，我算是这个行当在工业界的老古董了（学界不算，学界有的是NLP师爷和大牛）。跟我同期学习这行的同门学长们有小20位，由于这个行当不能在工业界形成规模，他们无一例外都在不同时期改行了，我几乎是幸存在工业界的仅有的化石级元老，赶上了工业应用的末班车。我运气比较好，1986年硕士毕业不久就兼职中关村搞机器翻译的开发，1997年博士快结束又赶上了dot康泡沫的美国大跃进，技术资金源源不断。就是在泡沫破灭后的萧条年代，我也一直对这一行抱有信心，但是从来没有像现在这样信心满满。我的预计，今后20年是 NLP 大显神威的时机，NLP 技术支撑的包括搜索在内的各类信息系统是真正的朝阳产业。（卖瓜的说瓜甜，据说连饶教授这样的大牛都不免。所以读者诸君为免在下误导，可在此打个折扣。）</p>
<p>NLP 技术的工业可行性我认为已经完全被证明了（很多人也许还没有意识到）。证明的实例表现在我们解决了三个信息搜索的难题：1 是解决了搜索 how 的难题；2 是解决了搜索 why 的难题；3 是解决了对客户反馈情报及其动机的抽提（譬如客户对一个产品的好恶）。前两个问题是问答搜索业界公认的最难类型的题目，第三个题目涉及的是语言现象中较难把握的主观性言语（subjective language），并非NLP通常面对的对象（objective language，事实描述的客观性言语），因此成为语言处理最难的课题之一（叫 sentiment extraction）。从问答系统角度来看，回答who/when/where等实体（entity）事实（factoid）的问题比较简单，技术相对成熟，最突出的表现就是IBM的问答系统赢得美国家喻户晓的电视智力竞赛Jeopardy的冠军，电脑打败了人脑，见 COMPUTER CRUSHES HUMAN &#8216;JEOPARDY!&#8217; CHAMPS）。这是因为 JEOPARDY! 的大多数问题是属于实体事实类的问题。具体细节就不谈了，以后有机会再论。总之，这三大公认的难题在过去五年中被我们一个一个解决，标志了作为实用技术的 NLP 已经过了需要证明自己的阶段。</p>
<p>很长一段时间，我们在学界测量一个系统，使用的是两个指标：1 查准率（precision：准确性, 即抓到的有多大比例是抓对了的）；2 查全率（recall：覆盖面，即所有该抓到的有多大比例真地抓到了）。Precision 和 recall 的定义如下：</p>
<p>Precision 查准率 = correct 查对数 / （correct 查对数 + spurious 查错数）<br />
Recall 查全率 = correct 查对数 / （correct 查对数 + missing 查漏数）</p>
<p>由于自然语言的歧义（和诡异），要想编制一套两项指标综合水平（术语叫 F-score）都很高的系统非常不容易。这跟打假也差不多，宁肯错杀一千，也不放过一个的蒋中正野蛮政策保证的是查全率；而宁肯放过一千，也不错杀一个的西方文明世界的准则保证的是查准率。要想兼顾二者，做到打得准也打得全，那是很难的。于是我们挖煤工人有时不得不叹气，面对汪洋大海的语言自觉渺小，吾生也有涯，口水没有涯，殆矣，觉得没什么指望了，疑惑红旗到底可以打得多久？</p>
<p>但是，事实是，自然语言系统能否实用，很多时候并不是决定于上述两个学界公认的指标。在信息爆炸的时代，在面对海量数据的时候，还有一个更重要的指标决定着一个系统在现实世界的成败。这个指标就是系统的吞吐量（through-put），系统可以不可以真正地 scale-up。由于电脑业的飞速发展，硬件成本的下降，由于并行分布式运算技术的成熟，吞吐量在现实中的瓶颈主要是经济上的羁绊，而不是技术意义上的难关。运行一个 farm 的 servers，只要有财力维护，能耐的工程师完全可以做到。其结果是革命性的。这种革命性成功的最突出的表现就是 Google 和 Facebook 等公司的做大。</p>
<p>在处理海量数据的问题解决以后，查准率和查全率变得相对不重要了。换句话说，即便不是最优秀的系统，只有平平的查准率（譬如70%，抓100个，只有70个抓对了），平平的查全率（譬如50%，两个只能抓到一个），只要可以scale up，一样可以做出优秀的实用系统来，创造应用程式的奇迹。为什么？根本原因在于两个因素：一是爆炸时代的信息冗余度；二是人类信息消化的有限度。查全率的不足可以用增加所处理的数据量来弥补，这一点比较好理解。既然有价值的信息，有统计意义的信息，不可能是“孤本”，它一定是被许多人以许多不同的说法重复着，那么查全率不高的系统总会抓住它也就没有疑问了。从信息消费者的角度，一个信息被抓住一万次，与被抓住一千次，是没有区别的，信息还是那个信息，只要准确就成。问题是一个查准率不理想的系统怎么可以取信于用户呢？如果是70%的系统，100条抓到的信息就有30条是错的，这岂不是鱼龙混杂，让人无法辨别，这样的系统还有什么价值？沿着这个思路，别说70%，就是高达90%的系统也还是错误随处可见。这样的视点忽略了实际系统中的信息筛选（sampling）与整合（fusion）的环节，因此夸大了系统的个案错误对最终结果的负面影响。实际上，典型的情景是，面对海量信息源，信息搜索者的几乎任何请求，都会有数不清的潜在答案。由于信息消费者是人，不是神，吃的是五谷杂粮，用的是一目最多十行的双眼，靠的是总比电脑慢三万拍的人脑，即便有一个完美无误的理想系统能够把所有结果，不分巨细都提供给他，他也无福消受，simply overwhelmed，就好比再超人的皇帝也无法应对360后宫720殿一样。因此，一个实用系统必须要做筛选整合，把统计上最有意义的结果呈现出来。这个筛选整合的过程可以保证最终结果的质量远远高于系统的个案质量。</p>
<p>总之，size matters，多了就不一样了。那天跟镜子提到这个在黑暗与半明半暗中摸索了几十年悟出来的体会，镜兄气定神闲地说：“那自然，大数定理决定的”。好像一切都在他的预料之中！！</p>
<p>信息的关键载体之一是语言。只要有语言，就需要NLP，你说说NLP该不该有光明的前景？</p>
<p>    Quote：<br />
    NLP is not magic, but the results you can get sometimes seem almost magical.<br />
    （“NLP 不是魔术，但是，其结果有时几乎就是魔术一般神奇。”）</p>
<p>引自：http://www.confidencenow.com/nlp-seduction.htm</p>
<p>相关博文：【据说，神奇的NLP可以增强你的性吸引力，增加你的信心和幽会成功率】<br />
<a href="http://bbs.sciencenet.cn/home.php?mod=space&#038;uid=362400&#038;do=blog&#038;id=434774">http://bbs.sciencenet.cn/home.php?mod=space&#038;uid=362400&#038;do=blog&#038;id=434774</a></p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e7%a7%91%e6%99%ae-%e9%97%ae%e7%ad%94%e7%b3%bb%e7%bb%9f%e7%9a%84%e5%89%8d%e7%94%9f%e4%bb%8a%e4%b8%96' rel='bookmark' title='立委科普：问答系统的前生今世'>立委科普：问答系统的前生今世</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part' rel='bookmark' title='MIT自然语言处理第二讲：单词计数（第四部分）'>MIT自然语言处理第二讲：单词计数（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/%e8%bf%bd%e5%bf%86%e5%a4%a7%e5%b8%88%e8%b4%be%e9%87%8c%e5%b0%bc%e5%85%8b' rel='bookmark' title='追忆大师贾里尼克'>追忆大师贾里尼克</a></li>
<li><a href='http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e9%9a%8f%e7%ac%94-%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0%e5%92%8c%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86' rel='bookmark' title='立委随笔：机器学习和自然语言处理'>立委随笔：机器学习和自然语言处理</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86%e5%af%b9%e4%ba%8eibm%e8%b6%85%e7%ba%a7%e8%ae%a1%e7%ae%97%e6%9c%ba%e6%b2%83%e6%a3%aewatson%e6%84%8f%e5%91%b3%e7%9d%80%e4%bb%80' rel='bookmark' title='自然语言处理对于IBM超级计算机沃森（Watson）意味着什么？'>自然语言处理对于IBM超级计算机沃森（Watson）意味着什么？</a></li>
<li><a href='http://www.52nlp.cn/acl-2010-best-paper-awards' rel='bookmark' title='ACL 2010 Best Paper Awards'>ACL 2010 Best Paper Awards</a></li>
<li><a href='http://www.52nlp.cn/acl09-acceptance-rates-by-areas' rel='bookmark' title='ACL09 Full Paper各研究领域的录用情况'>ACL09 Full Paper各研究领域的录用情况</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952' rel='bookmark' title='中文分词入门之字标注法2'>中文分词入门之字标注法2</a></li>
<li><a href='http://www.52nlp.cn/%e7%a0%96%e7%9f%b3-%e8%bf%98%e6%98%af%e9%9c%b2%e6%b0%b4' rel='bookmark' title='砖石，还是露水'>砖石，还是露水</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e7%a7%91%e6%99%ae-%e4%bb%8e%e4%ba%a7%e4%b8%9a%e8%a7%92%e5%ba%a6%e8%af%b4%e8%af%b4nlp%e8%bf%99%e4%b8%aa%e8%a1%8c%e5%bd%93/feed</wfw:commentRss>
		<slash:comments>7</slash:comments>
		</item>
		<item>
		<title>ACL-HLT 2011: List of Accepted Short Papers</title>
		<link>http://www.52nlp.cn/acl-hlt-2011-list-of-accepted-short-papers</link>
		<comments>http://www.52nlp.cn/acl-hlt-2011-list-of-accepted-short-papers#comments</comments>
		<pubDate>Sat, 09 Apr 2011 11:09:32 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[计算语言学]]></category>
		<category><![CDATA[转载]]></category>
		<category><![CDATA[ACL]]></category>
		<category><![CDATA[ACL 2011]]></category>
		<category><![CDATA[ACL-HLT 2011]]></category>
		<category><![CDATA[Paper]]></category>
		<category><![CDATA[Short Paper]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=3899</guid>
		<description><![CDATA[　　今天ACL-HLT 2011官方网站上已经给出了今年的short paper的录用情况，以下转载自ACL-HLT 2011的官方网站上的“List of Accepted Papers”。 A CLUSTERING APPROACH TO ENHANCE COMPARABLE CORPORA FOR BILINGUAL LEXICON EXTRACTION Bo Li, Eric Gaussier and Akiko Aizawa A HIERARCHICAL MODEL OF WEB SUMMARIES Yves Petinot, Kathleen McKeown and Kapil Thadani A PROBABILISTIC &#8230; <a href="http://www.52nlp.cn/acl-hlt-2011-list-of-accepted-short-papers">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/acl-hlt-2011-list-of-accepted-papers' rel='bookmark' title='ACL-HLT 2011: List of Accepted Papers'>ACL-HLT 2011: List of Accepted Papers</a></li>
<li><a href='http://www.52nlp.cn/coling-2010-list-of-accepted-papers-oral' rel='bookmark' title='COLING 2010: List of Accepted Papers (Oral)'>COLING 2010: List of Accepted Papers (Oral)</a></li>
<li><a href='http://www.52nlp.cn/acl-2010-list-of-accepted-papers' rel='bookmark' title='ACL 2010: List of Accepted Papers'>ACL 2010: List of Accepted Papers</a></li>
<li><a href='http://www.52nlp.cn/ijcnlp-2011-accepted-papers' rel='bookmark' title='IJCNLP 2011 Accepted Papers'>IJCNLP 2011 Accepted Papers</a></li>
<li><a href='http://www.52nlp.cn/from-google-research-blog-google-at-acl-2011' rel='bookmark' title='From Google Research Blog: Google at ACL 2011'>From Google Research Blog: Google at ACL 2011</a></li>
<li><a href='http://www.52nlp.cn/acl-2010-paper-%e5%9b%bd%e5%86%85%e7%a0%94%e7%a9%b6%e5%8d%95%e4%bd%8d%e5%bd%95%e7%94%a8%e6%83%85%e5%86%b5' rel='bookmark' title='ACL 2010 Paper国内研究单位录用情况'>ACL 2010 Paper国内研究单位录用情况</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-running-two' rel='bookmark' title='ACL-IJCNLP 2009会议进行时二'>ACL-IJCNLP 2009会议进行时二</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-running-one' rel='bookmark' title='ACL-IJCNLP 2009会议进行时一'>ACL-IJCNLP 2009会议进行时一</a></li>
<li><a href='http://www.52nlp.cn/coling-2010-prospect' rel='bookmark' title='COLING 2010前瞻——规则与统计共舞，语言随计算齐飞'>COLING 2010前瞻——规则与统计共舞，语言随计算齐飞</a></li>
<li><a href='http://www.52nlp.cn/acl09-acceptance-rates-by-areas' rel='bookmark' title='ACL09 Full Paper各研究领域的录用情况'>ACL09 Full Paper各研究领域的录用情况</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　今天ACL-HLT 2011官方网站上已经给出了今年的short paper的录用情况，以下转载自ACL-HLT 2011的官方网站上的“<a href="http://www.acl2011.org/accepted_papers.shtml">List of Accepted Papers</a>”。<br />
<span id="more-3899"></span><br />
A CLUSTERING APPROACH TO ENHANCE COMPARABLE CORPORA FOR BILINGUAL<br />
LEXICON EXTRACTION<br />
Bo Li, Eric Gaussier and Akiko Aizawa</p>
<p>A HIERARCHICAL MODEL OF WEB SUMMARIES<br />
Yves Petinot, Kathleen McKeown and Kapil Thadani</p>
<p>A PROBABILISTIC MODELING FRAMEWORK FOR LEXICAL ENTAILMENT<br />
Eyal Shnarch, Jacob Goldberger and Ido Dagan</p>
<p>A SCALABLE PROBABILISTIC CLASSIFIER FOR LANGUAGE MODELING<br />
Joel Lang</p>
<p>A SEMANTIC FRAMEWORK FOR TRANSLATION QUALITY ASSESSMENT<br />
Rafael E. Banchs and Haizhou Li</p>
<p>AN EMPIRICAL EVALUATION OF DATA-DRIVEN PARAPHRASE GENERATION TECHNIQUES<br />
Donald Metzler, Eduard Hovy and Chunliang Zheng</p>
<p>AN EMPIRICAL INVESTIGATION OF DISCOUNTING IN CROSS-DOMAIN LANGUAGE<br />
MODELS<br />
Greg Durrett and Dan Klein</p>
<p>AN ENSEMBLE MODEL THAT COMBINES SYNTACTIC AND SEMANTIC CLUSTERING FOR<br />
DISCRIMINATIVE DEPENDENCY PARSING<br />
Gholamreza Haffari, Marzieh Razavi and Anoop Sarkar</p>
<p>AUTOMATIC ASSESSMENT OF COVERAGE QUALITY IN INTELLIGENCE REPORTS<br />
Samuel Brody and Paul Kantor</p>
<p>AUTOMATIC DETECTION AND CORRECTION OF ERRORS IN DEPENDENCY TREEBANKS<br />
Alexander Volokh and Gnter Neumann</p>
<p>AUTOMATIC EVALUATION OF CHINESE TRANSLATION OUTPUT: WORD-LEVEL OR<br />
CHARACTER-LEVEL?<br />
Maoxi Li, Chengqing Zong and Hwee Tou Ng</p>
<p>AUTOMATIC EXTRACTION OF LEXICO-SYNTACTIC PATTERNS FOR DETECTION OF<br />
NEGATION AND SPECULATION SCOPES<br />
Emilia Apostolova, Noriko Tomuro and Dina Demner-Fushman</p>
<p>AUTOMATICALLY PREDICTING PEER-REVIEW HELPFULNESS<br />
Wenting Xiong and Diane J. Litman</p>
<p>BAYESIAN WORD ALIGNMENT FOR STATISTICAL MACHINE TRANSLATION<br />
Coskun Mermer and Murat Saraclar</p>
<p>BETTER AUTOMATIC TREEBANK CONVERSION USING A FEATURE-BASED APPROACH<br />
Muhua Zhu and Jingbo Zhu</p>
<p>BETTER HYPOTHESIS TESTING FOR STATISTICAL MACHINE TRANSLATION:<br />
CONTROLLING FOR OPTIMIZER INSTABILITY<br />
Jonathan Clark, Chris Dyer, Alon Lavie and Noah Smith</p>
<p>BUILDING A CORPUS OF SCOPE-DISAMBIGUATED ENGLISH TEXT<br />
Mehdi Manshadi, James Allen and Mary Swift</p>
<p>CAN DOCUMENT SELECTION HELP SEMI-SUPERVISED LEARNING? A CASE STUDY ON<br />
EVENT EXTRACTION<br />
Shasha Liao and Ralph Grishman</p>
<p>CHINESE SENTENCE SEGMENTATION AS COMMA CLASSIFICATION<br />
Nianwen Xue and Yaqin Yang</p>
<p>CLAUSE RESTRUCTURING FOR SMT NOT ABSOLUTELY HELPFUL<br />
Susan Howlett and Mark Dras</p>
<p>COMPARATIVE NEWS SUMMARIZATION USING LINEAR PROGRAMMING<br />
Xiaojiang Huang and Xiaojun Wan</p>
<p>CONFIDENCE-WEIGHTED LEARNING OF FACTORED DISCRIMINATIVE LANGUAGE MODELS<br />
Viet Ha Thuc and Nicola Cancedda</p>
<p>CONTRASTING MULTI-LINGUAL PROSODIC CUES TO PREDICT VERBAL FEEDBACK FOR<br />
RAPPORT<br />
Siwei Wang and Gina-Anne Levow</p>
<p>COREFERENCE FOR LEARNING TO EXTRACT RELATIONS: YES VIRGINIA,<br />
COREFERENCE MATTERS<br />
Ryan Gabbard, Marjorie Freedman and Ralph Weischedel</p>
<p>CORPUS EXPANSION FOR STATISTICAL MACHINE TRANSLATION WITH SEMANTICAL<br />
ROLE LABEL SUBSTITUTION RULES<br />
Qin Gao and Stephan Vogel</p>
<p>DATA POINT SELECTION FOR CROSS-LANGUAGE ADAPTATION OF DEPENDENCY<br />
PARSERS<br />
Anders Sgaard</p>
<p>DATA-ORIENTED MONOLOGUE-TO-DIALOGUE GENERATION<br />
Paul Piwek and Svetlana Stoyanchev</p>
<p>DEALING WITH SPURIOUS AMBIGUITY IN LEARNING ITG-BASED WORD ALIGNMENT<br />
Shujian Huang, Stephan Vogel and Jiajun Chen</p>
<p>DETECTION OF AGREEMENT AND DISAGREEMENT IN BROADCAST CONVERSATIONS<br />
Wen Wang, Sibel Yaman, Kristin Precoda, Colleen Richey and Geoffrey<br />
Raymond</p>
<p>DISCRETE VS. CONTINUOUS RATING SCALES FOR LANGUAGE EVALUATION IN NLP<br />
Anja Belz and Eric Kow</p>
<p>DISCRIMINATIVE FEATURE-TIED MIXTURE MODELING FOR STATISTICAL MACHINE<br />
TRANSLATION<br />
Bing Xiang and Abraham Ittycheriah</p>
<p>DOES SIZE MATTER  HOW MUCH DATA IS REQUIRED TO TRAIN A REG<br />
ALGORITHM?<br />
Marit Theune, Ruud Koolen, Emiel Krahmer and Sander Wubben</p>
<p>DOMAIN ADAPTATION FOR MACHINE TRANSLATION BY MINING UNSEEN WORDS<br />
Hal Daume III and Jagadeesh Jagarlamudi</p>
<p>EFFICIENT ONLINE LOCALITY SENSITIVE HASHING VIA RESERVOIR COUNTING<br />
Benjamin Van Durme and Ashwin Lall</p>
<p>END-TO-END RELATION EXTRACTION USING DISTANT SUPERVISION FROM EXTERNAL<br />
SEMANTIC REPOSITORIES<br />
Thi Truc Vien Nguyen, Alessandro Moschitti and Giuseppe Riccardi</p>
<p>ENTITY SET EXPANSION USING TOPIC INFORMATION<br />
Kugatsu Sadamitsu, Kuniko Saito, Kenji Imamura and Genichiro Kikui</p>
<p>ENTRAINMENT IN SPEECH PRECEDING BACKCHANNELS.<br />
Rivka Levitan, Agustin Gravano and Julia Hirschberg</p>
<p>EVEN THE ABSTRACT HAVE COLOR: DETERMINING CONCEPT&#8211;COLOR ASSOCIATIONS<br />
Saif Mohammad</p>
<p>EXTENDING THE ENTITY GRID WITH ENTITY-SPECIFIC FEATURES<br />
Micha Elsner and Eugene Charniak</p>
<p>EXTRACTING OPINION EXPRESSIONS AND THEIR POLARITIES  EXPLORATION OF<br />
PIPELINES AND JOINT MODELS<br />
Richard Johansson and Alessandro Moschitti</p>
<p>FRENCH TIMEBANK: AN ISO-TIMEML ANNOTATED REFERENCE CORPUS<br />
Andr Bittar, Pascal Amsili, Pascal Denis and Laurence Danlos</p>
<p>FROM BILINGUAL DICTIONARIES TO INTERLINGUAL DOCUMENT REPRESENTATIONS<br />
Jagadeesh Jagarlamudi, Hal Daume III and Raghavendra Udupa</p>
<p>FULLY UNSUPERVISED WORD SEGMENTATION WITH BVE AND MDL<br />
Daniel Hewlett and Paul Cohen</p>
<p>GENDER ATTRIBUTION: TRACING STYLOMETRIC EVIDENCE BEYOND TOPIC AND GENRE<br />
Ruchita Sarawgi, Kailash Gajulapalli and Yejin Choi</p>
<p>GENERALIZED INTERPOLATION IN DECISION TREE LM<br />
Denis Filimonov and Mary Harper</p>
<p>GETTING THE MOST OUT OF TRANSITION-BASED DEPENDENCY PARSING<br />
Jinho Choi and Martha Palmer</p>
<p>GOOD SEED MAKES A GOOD CROP: ACCELERATING ACTIVE LEARNING USING<br />
LANGUAGE MODELING<br />
Dmitriy Dligach and Martha Palmer</p>
<p>HIERARCHICAL REINFORCEMENT LEARNING AND HIDDEN MARKOV MODELS FOR<br />
TASK-ORIENTED NATURAL LANGUAGE GENERATION<br />
Nina Dethlefs and Heriberto Cuayhuitl</p>
<p>HIERARCHICAL TEXT CLASSIFICATION WITH LATENT CONCEPTS<br />
Xipeng Qiu and Xuanjing Huang</p>
<p>HOW MUCH CAN WE GAIN FROM SUPERVISED WORD ALIGNMENT?<br />
Jinxi Xu and Jinying Chen</p>
<p>IDENTIFICATION OF DOMAIN-SPECIFIC SENSES IN A MACHINE-READABLE<br />
DICTIONARY<br />
Fumiyo Fukumoto and Yoshimi Suzuki</p>
<p>IDENTIFYING NOUN PRODUCT FEATURES THAT IMPLY OPINIONS<br />
Lei Zhang and Bing Liu</p>
<p>IDENTIFYING THE SEMANTIC ORIENTATION OF FOREIGN WORDS<br />
Ahmed Hassan, Amjad AbuJbara, Rahul Jha and Dragomir Radev</p>
<p>IDENTIFYING WORD TRANSLATIONS FROM COMPARABLE CORPORA USING LATENT<br />
TOPIC MODELS<br />
Ivan Vulic&#8217;, Wim De Smet and Marie-Francine Moens</p>
<p>IMPROVED MODELING OF OUT-OF-VOCABULARY WORDS USING MORPHOLOGICAL<br />
CLASSES<br />
Thomas Mller and Hinrich Schtze</p>
<p>IMPROVING CLASSIFICATION OF MEDICAL ASSERTIONS IN CLINICAL NOTES<br />
Youngjun Kim, Ellen Riloff and Stphane Meystre</p>
<p>IMPROVING DECODING GENERALIZATION FOR TREE-TO-STRING TRANSLATION<br />
Jingbo Zhu and Tong Xiao</p>
<p>IMPROVING DEPENDENCY PARSING WITH SEMANTIC CLASSES<br />
Eneko Agirre, Kepa Bengoetxea, Koldo Gojenola and Joakim Nivre</p>
<p>IMPROVING ON-LINE HANDWRITTEN RECOGNITION USING TRANSLATION MODELS IN<br />
MULTIMODAL INTERACTIVE MACHINE TRANSLATION<br />
Vicent Alabau, Alberto Sanchis and Francisco Casacuberta</p>
<p>INDENTIFYING SARCASM IN TWITTER: A CLOSER LOOK<br />
Roberto Gonzlez-Ibez, Smaranda Muresan and Nina Wacholder</p>
<p>INSERTION OPERATOR FOR BAYESIAN TREE SUBSTITUTION GRAMMARS<br />
Hiroyuki Shindo, Akinori Fujino and Masaaki Nagata</p>
<p>INSERTION, DELETION, OR SUBSTITUTION? NORMALIZING TEXT MESSAGES WITHOUT<br />
PRE-CATEGORIZATION NOR SUPERVISION<br />
Fei Liu, Fuliang Weng and Yang Liu</p>
<p>INTERACTIVE GROUP SUGGESTING FOR TWITTER<br />
Zhonghua Qu and Yang Liu</p>
<p>IS MACHINE TRANSLATION RIPE FOR CROSS-LINGUAL SENTIMENT CLASSIFICATION?<br />
Kevin Duh and Akinori Fujino</p>
<p>ISSUES CONCERNING DECODING WITH SYNCHRONOUS CONTEXT-FREE GRAMMAR<br />
Tagyoung Chung, Licheng Fang and Daniel Gildea</p>
<p>JOINT HEBREW SEGMENTATION AND PARSING USING A PCFGLA LATTICE PARSER<br />
Yoav Goldberg and Michael Elhadad</p>
<p>JOINT IDENTIFICATION AND SEGMENTATION OF DOMAIN-SPECIFIC DIALOGUE ACTS<br />
FOR CONVERSATIONAL DIALOGUE SYSTEMS<br />
Fabrizio Morbini and Kenji Sagae</p>
<p>JOINT TRAINING OF DEPENDENCY PARSING FILTERS THROUGH LATENT SUPPORT<br />
VECTOR MACHINES<br />
Colin Cherry and Shane Bergsma</p>
<p>JUDGING GRAMMATICALITY WITH FEATURES FROM TREE SUBSTITUTION GRAMMAR<br />
DERIVATIONS<br />
Matt Post</p>
<p>LANGUAGE OF VANDALISM: IMPROVING WIKIPEDIA VANDALISM DETECTION VIA<br />
STYLOMETRIC ANALYSIS<br />
Manoj Harpalani, Sandesh Singh, Michael Hart, Rob Johnson and Yejin<br />
Choi</p>
<p>LANGUAGE USE: WHAT CAN IT TELL US?<br />
Marjorie Freedman, Alex Baron, Vasin Punyakanok and Ralph Weischedel</p>
<p>LANGUAGE-INDEPENDENT PARSING WITH EMPTY ELEMENTS<br />
Shu Cai, David Chiang and Yoav Goldberg</p>
<p>LATENT CLASS TRANSLITERATION BASED ON SOURCE LANGUAGE ORIGIN<br />
Masato Hagiwara and Satoshi Sekine</p>
<p>LEARNING CONDENSED FEATURE REPRESENTATIONS FROM LARGE UNSUPERVISED DATA<br />
SETS FOR SUPERVISED LEARNING<br />
Jun Suzuki, Hideki Isozaki and Masaaki Nagata</p>
<p>LEXICOGRAPHIC SEMIRINGS FOR EXACT AUTOMATA ENCODING OF SEQUENCE MODELS<br />
Brian Roark, Richard Sproat and Izhak Shafran</p>
<p>LIARS AND SAVIORS IN A SENTIMENT ANNOTATED CORPUS OF COMMENTS TO<br />
POLITICAL DEBATES<br />
Paula Carvalho, Lus Sarmento, Jorge Teixeira and Mrio J. Silva</p>
<p>LOST IN TRANSLATION: AUTHORSHIP ATTRIBUTION USING FRAME SEMANTICS<br />
Steffen Hedegaard and Jakob Grue Simonsen</p>
<p>MODEL-PORTABILITY EXPERIMENTS FOR TEXTUAL TEMPORAL ANALYSIS<br />
Oleksandr Kolomiyets, Steven Bethard and Marie-Francine Moens</p>
<p>MODELING MORPHO-SYNTACTIC AGREEMENT IN ARABIC: GENDER, NUMBER AND<br />
RATIONALITY<br />
Sarah Alkuhlani and Nizar Habash</p>
<p>MODELING WISDOM OF CROWDS USING LATENT MIXTURE OF DISCRIMINATIVE<br />
EXPERTS<br />
Derya Ozkan</p>
<p>MODELS AND TRAINING FOR UNSUPERVISED PREPOSITION SENSE DISAMBIGUATION<br />
Dirk Hovy, Ashish Vaswani, Stephen Tratz, David Chiang and Eduard Hovy</p>
<p>MONOLINGUAL ALIGNMENT BY EDIT RATE COMPUTATION ON SENTENTIAL PARAPHRASE<br />
PAIRS<br />
Houda Bouamor, Aurlien Max and Anne Vilnat</p>
<p>NONPARAMETRIC BAYESIAN MACHINE TRANSLITERATION WITH SYNCHRONOUS ADAPTOR<br />
GRAMMARS<br />
Yun Huang, Min Zhang and Chew Lim Tan</p>
<p>NULEX: AN OPEN-LICENSE BROAD COVERAGE LEXICON<br />
Clifton McFate and Kenneth Forbus</p>
<p>ON-LINE LANGUAGE MODEL BIASING FOR STATISTICAL MACHINE TRANSLATION<br />
Sankaranarayanan Ananthakrishnan, Rohit Prasad and Prem Natarajan</p>
<p>OPTIMAL AND SYNTACTICALLY-INFORMED DECODING FOR MONOLINGUAL<br />
PHRASE-BASED ALIGNMENT<br />
Kapil Thadani and Kathleen McKeown</p>
<p>PARASENSE OR HOW TO USE PARALLEL CORPORA FOR WORD SENSE DISAMBIGUATION<br />
Els Lefever, Veronique Hoste and Martine De Cock</p>
<p>PART-OF-SPEECH TAGGING FOR TWITTER: ANNOTATION, FEATURES, AND<br />
EXPERIMENTS<br />
Kevin Gimpel, Nathan Schneider, Brendan O&#8217;Connor, Dipanjan Das, Daniel<br />
Mills, Jacob Eisenstein, Michael Heilman, Dani Yogatama, Jeffrey<br />
Flanigan and Noah A. Smith</p>
<p>POINTWISE PREDICTION FOR ROBUST, ADAPTABLE JAPANESE MORPHOLOGICAL<br />
ANALYSIS<br />
Graham Neubig, Yosuke Nakata and Shinsuke Mori</p>
<p>PREDICTING RELATIVE PROMINENCE IN NOUN-NOUN COMPOUNDS<br />
Taniya Mishra and Srinivas Bangalore</p>
<p>PROBABILISTIC DOCUMENT MODELING FOR SYNTAX REMOVAL IN TEXT<br />
SUMMARIZATION<br />
William M. Darling and Fei Song</p>
<p>PUTTING IT SIMPLY: A CONTEXT-AWARE APPROACH TO LEXICAL SIMPLIFICATION<br />
Or Biran, Samuel Brody and Noemie Elhadad</p>
<p>QUERY SNOWBALL: A CO-OCCURRENCE-BASED APPROACH TO MULTI-DOCUMENT<br />
SUMMARIZATION FOR QUESTION ANSWERING<br />
Hajime Morita, Tetsuya Sakai and Manabu Okumura</p>
<p>QUESTION DETECTION IN SPOKEN CONVERSATIONS USING TEXTUAL CONVERSATIONS<br />
Anna Margolis and Mari Ostendorf</p>
<p>QUESTION FORMULATION IN WEB SEARCH QUERIES AND ITS TEMPORAL CHANGES<br />
Bo Pang and Ravi Kumar</p>
<p>RELATION GUIDED BOOTSTRAPPING OF SEMANTIC LEXICONS<br />
Tara McIntosh, Lars Yencken, Timothy Baldwin and James R. Curran</p>
<p>REORDERING CONSTRAINT BASED ON DOCUMENT LEVEL CONTEXT<br />
Takashi Onishi, Masao Utiyama and Eiichiro Sumita</p>
<p>REORDERING MODELING USING WEIGHTED ALIGNMENT MATRICES<br />
Wang Ling, Tiago Lus, Joo Graa, Isabel Trancoso and Lusa Coheur</p>
<p>REVERSIBLE STOCHASTIC ATTRIBUTE-VALUE GRAMMARS<br />
Danil de Kok, Barbara Plank and Gertjan van Noord</p>
<p>SCALING UP CROSS-LINGUAL SEMANTIC ANNOTATION TRANSFER<br />
Lonneke van der Plas, James Henderson and Paola Merlo</p>
<p>SEMANTIC INFORMATION AND DERIVATION RULES FOR ROBUST DIALOGUE ACT<br />
DETECTION IN A SPOKEN DIALOGUE SYSTEM<br />
Wei-Bin Liang, Chung-Hsien Wu and Chia-Ping Chen</p>
<p>SEMI-SUPERVISED CONDENSED NEAREST NEIGHBOR FOR PART-OF-SPEECH TAGGING<br />
Anders Sgaard</p>
<p>SEMI-SUPERVISED FINE-GRAINED SENTIMENT ANALYSIS WITH LATENT VARIABLE<br />
STRUCTURED CONDITIONAL MODELS<br />
Oscar Tckstrm and Ryan McDonald</p>
<p>SEMI-SUPERVISED MODELING FOR PRENOMINAL MODIFIER ORDERING<br />
Margaret Mitchell, Aaron Dunlop and Brian Roark</p>
<p>SUBJECTIVE NATURAL LANGUAGE PROBLEMS: MOTIVATIONS, CHARACTERIZATIONS,<br />
APPLICATIONS, AND IMPLICATIONS<br />
Cecilia Ovesdotter Alm</p>
<p>SUBJECTIVITY AND SENTIMENT ANALYSIS OF MODERN STANDARD ARABIC<br />
Muhammad Abdul-Mageed, Mona Diab and Mohammed Korayem</p>
<p>TEMPORAL EVALUATION<br />
Naushad UzZaman and James Allen</p>
<p>TEMPORAL RESTRICTED BOLTZMANN MACHINES FOR DEPENDENCY PARSING<br />
Nikhil Garg and James Henderson</p>
<p>TERMINAL-AWARE SYNCHRONOUS BINARIZATION<br />
Licheng Fang, Tagyoung Chung and Daniel Gildea</p>
<p>TEXT SIMPLIFICATION USING SIMPLE ENGLISH WIKIPEDIA<br />
William Coster and David Kauchak</p>
<p>THAT&#8217;S WHAT SHE SAID: DOUBLE ENTENDRE IDENTIFICATION<br />
Chloe Kiddon and Yuriy Brun</p>
<p>THE ARABIC ONLINE COMMENTARY DATASET: AN ANNOTATED DATASET OF INFORMAL<br />
ARABIC WITH HIGH DIALECTAL CONTENT<br />
Omar Zaidan and Chris Callison-Burch</p>
<p>THE SURPRISING VARIANCE IN SHORTEST-DERIVATION PARSING<br />
Mohit Bansal and Dan Klein</p>
<p>THEY CAN HELP: USING CROWDSOURCING TO IMPROVE THE EVALUATION OF<br />
GRAMMATICAL ERROR DETECTION SYSTEMS<br />
Nitin Madnani, Martin Chodorow, Joel Tetreault and Alla Rozovskaya</p>
<p>TIER-BASED STRICTLY LOCAL CONSTRAINTS FOR PHONOLOGY<br />
Jeffrey Heinz, Chetan Rawal and Herbert Tanner</p>
<p>TOWARDS TRACKING SEMANTIC CHANGE BY VISUAL ANALYTICS<br />
Christian Rohrdantz, Annette Hautli, Thomas Mayer, Miriam Butt, Daniel<br />
A. Keim and Frans Plank</p>
<p>TOWARDS WRITING STYLE TRANSFORMATION FROM TEXT-STYLE TO AUDIO-STYLE<br />
Amjad Abu-Jbara, Barbara Rosario and Kent Lyons</p>
<p>TRANSITION-BASED DEPENDENCY PARSING WITH RICH NON-LOCAL FEATURES<br />
Yue Zhang and Joakim Nivre</p>
<p>TWO EASY IMPROVEMENTS TO LEXICAL WEIGHTING<br />
David Chiang, Steve DeNeefe and Michael Pust</p>
<p>TYPED GRAPH MODELS FOR LEARNING LATENT ATTRIBUTES FROM NAMES<br />
Delip Rao and David Yarowsky</p>
<p>TYPES OF COMMON-SENSE KNOWLEDGE NEEDED FOR RECOGNIZING TEXTUAL<br />
ENTAILMENT<br />
Peter LoBue and Alexander Yates</p>
<p>UNARY CONSTRAINTS FOR CONTEXT-FREE PARSING<br />
Nathan Bodenstab, Kristy Hollingshead and Brian Roark</p>
<p>UNSUPERVISED DISCOVERY OF RHYME SCHEMES<br />
Sravana Reddy and Kevin Knight</p>
<p>UNSUPERVISED SEED SELECTION AND STOP LIST CONSTRUCTION FOR<br />
BOOTSTRAPPING: A GRAPH-BASED APPROACH<br />
Tetsuo Kiso, Masashi Shimbo, Mamoru Komachi and Yuji Matsumoto</p>
<p>USING DERIVATION TREES FOR TREEBANK ERROR DETECTION<br />
Seth Kulick, Ann Bies and Justin Mott</p>
<p>WHY INITIALIZATION MATTERS FOR IBM MODEL 1: MULTIPLE OPTIMA AND<br />
NON-STRICT CONVEXITY<br />
Kristina Toutanova and Michel Galley</p>
<p>WHY PRESS BACKSPACE? UNDERSTANDING USER INPUT BEHAVIORS IN CHINESE<br />
PINYIN INPUT METHOD<br />
Yabin Zheng</p>
<p>WORD ALIGNMENT VIA SUBMODULAR MAXIMIZATION OVER MATROIDS<br />
Hui Lin and Jeff Bilmes</p>
<p>I THOU THEE, THOU TRAITOR: PREDICTING FORMAL VS. INFORMAL ADDRESS<br />
IN ENGLISH LITERATURE<br />
Manaal Faruqui and Sebastian Pado</p>
<p>注：转载请注明出处“<a href="http://www.52nlp.cn/">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn/">http://www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/acl-hlt-2011-list-of-accepted-short-papers">http://www.52nlp.cn/acl-hlt-2011-list-of-accepted-short-papers</a></p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/acl-hlt-2011-list-of-accepted-papers' rel='bookmark' title='ACL-HLT 2011: List of Accepted Papers'>ACL-HLT 2011: List of Accepted Papers</a></li>
<li><a href='http://www.52nlp.cn/coling-2010-list-of-accepted-papers-oral' rel='bookmark' title='COLING 2010: List of Accepted Papers (Oral)'>COLING 2010: List of Accepted Papers (Oral)</a></li>
<li><a href='http://www.52nlp.cn/acl-2010-list-of-accepted-papers' rel='bookmark' title='ACL 2010: List of Accepted Papers'>ACL 2010: List of Accepted Papers</a></li>
<li><a href='http://www.52nlp.cn/ijcnlp-2011-accepted-papers' rel='bookmark' title='IJCNLP 2011 Accepted Papers'>IJCNLP 2011 Accepted Papers</a></li>
<li><a href='http://www.52nlp.cn/from-google-research-blog-google-at-acl-2011' rel='bookmark' title='From Google Research Blog: Google at ACL 2011'>From Google Research Blog: Google at ACL 2011</a></li>
<li><a href='http://www.52nlp.cn/acl-2010-paper-%e5%9b%bd%e5%86%85%e7%a0%94%e7%a9%b6%e5%8d%95%e4%bd%8d%e5%bd%95%e7%94%a8%e6%83%85%e5%86%b5' rel='bookmark' title='ACL 2010 Paper国内研究单位录用情况'>ACL 2010 Paper国内研究单位录用情况</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-running-two' rel='bookmark' title='ACL-IJCNLP 2009会议进行时二'>ACL-IJCNLP 2009会议进行时二</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-running-one' rel='bookmark' title='ACL-IJCNLP 2009会议进行时一'>ACL-IJCNLP 2009会议进行时一</a></li>
<li><a href='http://www.52nlp.cn/coling-2010-prospect' rel='bookmark' title='COLING 2010前瞻——规则与统计共舞，语言随计算齐飞'>COLING 2010前瞻——规则与统计共舞，语言随计算齐飞</a></li>
<li><a href='http://www.52nlp.cn/acl09-acceptance-rates-by-areas' rel='bookmark' title='ACL09 Full Paper各研究领域的录用情况'>ACL09 Full Paper各研究领域的录用情况</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/acl-hlt-2011-list-of-accepted-short-papers/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>Matrix67：漫话中文分词算法</title>
		<link>http://www.52nlp.cn/matrix67-%e6%bc%ab%e8%af%9d%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e7%ae%97%e6%b3%95</link>
		<comments>http://www.52nlp.cn/matrix67-%e6%bc%ab%e8%af%9d%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e7%ae%97%e6%b3%95#comments</comments>
		<pubDate>Thu, 10 Mar 2011 13:49:14 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[中文信息处理]]></category>
		<category><![CDATA[中文分词]]></category>
		<category><![CDATA[转载]]></category>
		<category><![CDATA[Matrix67]]></category>
		<category><![CDATA[最大匹配法]]></category>
		<category><![CDATA[统计语言模型]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=3818</guid>
		<description><![CDATA[注：这是今天在Matrix67上看到的关于中文分词的文章，粗略的读了一遍，觉得Matrix67能把中文分词的一些关键问题如此“漫话”开来，不愧是北大中文系的牛人！以下文章转自于Matrix67的“漫话中文分词算法”，有兴趣的读者可以移步到他的blog观赏。 记得第一次了解中文分词算法是在 Google 黑板报 上看到的，当初看到那个算法时我彻底被震撼住了，想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法。最近在詹卫东老师的《中文信息处理导论》课上 再次学到中文分词算法，才知道这并不是中文分词算法研究的全部，前前后后还有很多故事可讲。在没有建立统计语言模型时，人们还在语言学的角度对自动分词进 行研究，期间诞生了很多有意思的理论。 中文分词的主要困难在于分词歧义。“结婚的和尚未结婚的”，应该分成“结婚／的／和／尚未／结婚／的”，还是“结婚／的／和尚／未／结婚／ 的”？人来判断很容易，要交给计算机来处理就麻烦了。问题的关键就是，“和尚未”里的“和尚”也是一个词，“尚未”也是一个词，从计算机的角度看上去，两 者似乎都有可能。对于计算机来说，这样的分词困境就叫做“交集型歧义”。 有时候，交集型歧义的“歧义链”有可能会更长。“中外科学名著”里，“中外”、“外科”、“科学”、“学名”、“名著”全是词，光从词库的 角度来看，随便切几刀下去，得出的切分都是合理的。类似的例子数不胜数，“提高产品质量”、“鞭炮声响彻夜空”、“努力学习语法规则”等句子都有这样的现 象。在这些极端例子下，分词算法谁优谁劣可谓是一试便知。 最简单的，也是最容易想到的自动分词算法，便是“最大匹配法”了。也就是说，从句子左端开始，不断匹配最长的词（组不了词的单字则单独划开），直 到把句子划分完。算法的理由很简单：人在阅读时也是从左往右逐字读入的，最大匹配法是与人的习惯相符的。而在大多数情况下，这种算法也的确能侥幸成功。不 过，这种算法并不可靠，构造反例可以不费吹灰之力。例如，“北京大学生前来应聘”本应是“北京／大学生／前来／应聘”，却会被误分成“北京大学／生前／来 ／应聘”。 维护一个特殊规则表，可以修正一些很机械的问题，效果相当不错。例如，“不可能”要划分成“不／可能”，“会诊”后面接“断”、“疗”、“脉”、“治”时要把“会”单独切出，“的确切”后面是抽象名词时要把“的确切”分成“的／确切”，等等。 还有一个适用范围相当广的特殊规则，这个强大的规则能修正很多交集型歧义的划分错误。首先我们要维护一个一般不单独成词的字表，比如 “民”、“尘”、“伟”、“习”等等；这些字通常不会单独划出来，都要跟旁边的字一块儿组成一个词。在分词过程中时，一旦发现这些字被孤立出来，都重新考 虑它与前面的字组词的可能。例如，在用最大匹配法切分“为人民服务”时，算法会先划出“为人”一词，而后发现“民”字只能单独成词了。查表却发现，“民” 并不能单独划出，于是考虑进行修正——把“为人”的“人”字分配给“民”字。巧在这下“为”和“人民”正好都能成词，据此便可得出正确的划分“为／人民／ 服务”。 不过，上述算法归根结底，都是在像人一样从左到右地扫描文字。为了把问题变得更加形式化，充分利用计算机的优势，我们还有一种与人的阅读习惯完全 不同的算法思路：把句子作为一个整体来考虑，从全局的角度评价一个句子划分方案的好坏。设计自动分词算法的问题，也就变成了如何评估分词方案优劣的问题。 最初所用的办法就是，寻找词数最少的划分。注意，每次都匹配最长的词，得出的划分不见得是词数最少的，错误的贪心很可能会不慎错过一些更优的路。因而，在 有的情况下，最少词数法比最大匹配法效果更好。若用最大匹配法来划分，“独立自主和平等互利的原则”将被分成“独立自主／和平／等／互利／的／原则”，一 共有 6 个词；但词数更少的方案则是“独立自主／和／平等互利／的／原则”，一共只有 5 个词。 当然，最少词数法也会有踩大便的时候。“为人民办公益”的最大匹配划分和最少词数划分都是“为人／民办／公益”，而正确的划分则是“为／人 民／办／公益”。同时，很多句子也有不止一个词数最少的分词方案，最少词数法并不能从中选出一个最佳答案。不过，把之前提到的“不成词字表”装备到最少词 数法上，我们就有了一种简明而强大的算法： 对于一种分词方案，里面有多少词，就罚多少分；每出现一个不成词的单字，就加罚一分。最好的分词方案，也就是罚分最少的方案。 这种算法的效果出人意料的好。“他说的确实在理”是一个很困难的测试用例，“的确”和“实在”碰巧也成词，这给自动分词带来了很大的障碍。但是“确”、“实”、“理”通常都不单独成词的，因此很多切分方案都会被扣掉不少分： 他／说／的／确实／在理 （罚分：1+1+1+1+1 = &#8230; <a href="http://www.52nlp.cn/matrix67-%e6%bc%ab%e8%af%9d%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e7%ae%97%e6%b3%95">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952' rel='bookmark' title='中文分词入门之最大匹配法扩展2'>中文分词入门之最大匹配法扩展2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96' rel='bookmark' title='中文分词入门之篇外'>中文分词入门之篇外</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%951' rel='bookmark' title='中文分词入门之最大匹配法扩展1'>中文分词入门之最大匹配法扩展1</a></li>
<li><a href='http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation' rel='bookmark' title='中文分词入门之最大匹配法'>中文分词入门之最大匹配法</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952' rel='bookmark' title='中文分词入门之字标注法2'>中文分词入门之字标注法2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation' rel='bookmark' title='基于字标注的中文分词方法'>基于字标注的中文分词方法</a></li>
<li><a href='http://www.52nlp.cn/%e6%8e%a8%e8%8d%90%e5%bc%a0%e5%8d%8e%e5%b9%b3%e8%80%81%e5%b8%88%e7%9a%84%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%b7%a5%e5%85%b7-ictclas2010' rel='bookmark' title='推荐张华平老师的中文分词工具ICTCLAS2010'>推荐张华平老师的中文分词工具ICTCLAS2010</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><strong>注：这是今天在<a href="http://www.matrix67.com/blog/">Matrix67</a>上看到的关于中文分词的文章，粗略的读了一遍，觉得Matrix67能把中文分词的一些关键问题如此“漫话”开来，不愧是北大中文系的牛人！以下文章转自于Matrix67的“<a href="http://www.matrix67.com/blog/archives/4212">漫话中文分词算法</a>”，有兴趣的读者可以移步到他的blog观赏。</strong></p>
<p>记得第一次了解中文分词算法是在 <a href="http://www.google.com.hk/ggblog/googlechinablog/2006/04/blog-post_7327.html">Google 黑板报</a> 上看到的，当初看到那个算法时我彻底被震撼住了，想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法。最近在詹卫东老师的《中文信息处理导论》课上 再次学到中文分词算法，才知道这并不是中文分词算法研究的全部，前前后后还有很多故事可讲。在没有建立统计语言模型时，人们还在语言学的角度对自动分词进 行研究，期间诞生了很多有意思的理论。</p>
<p>中文分词的主要困难在于分词歧义。“结婚的和尚未结婚的”，应该分成“结婚／的／和／尚未／结婚／的”，还是“结婚／的／和尚／未／结婚／ 的”？人来判断很容易，要交给计算机来处理就麻烦了。问题的关键就是，“和尚未”里的“和尚”也是一个词，“尚未”也是一个词，从计算机的角度看上去，两 者似乎都有可能。对于计算机来说，这样的分词困境就叫做“交集型歧义”。</p>
<p>有时候，交集型歧义的“歧义链”有可能会更长。“中外科学名著”里，“中外”、“外科”、“科学”、“学名”、“名著”全是词，光从词库的 角度来看，随便切几刀下去，得出的切分都是合理的。类似的例子数不胜数，“提高产品质量”、“鞭炮声响彻夜空”、“努力学习语法规则”等句子都有这样的现 象。在这些极端例子下，分词算法谁优谁劣可谓是一试便知。<br />
<span id="more-3818"></span><br />
最简单的，也是最容易想到的自动分词算法，便是“最大匹配法”了。也就是说，从句子左端开始，不断匹配最长的词（组不了词的单字则单独划开），直 到把句子划分完。算法的理由很简单：人在阅读时也是从左往右逐字读入的，最大匹配法是与人的习惯相符的。而在大多数情况下，这种算法也的确能侥幸成功。不 过，这种算法并不可靠，构造反例可以不费吹灰之力。例如，“北京大学生前来应聘”本应是“北京／大学生／前来／应聘”，却会被误分成“北京大学／生前／来 ／应聘”。</p>
<p>维护一个特殊规则表，可以修正一些很机械的问题，效果相当不错。例如，“不可能”要划分成“不／可能”，“会诊”后面接“断”、“疗”、“脉”、“治”时要把“会”单独切出，“的确切”后面是抽象名词时要把“的确切”分成“的／确切”，等等。</p>
<p>还有一个适用范围相当广的特殊规则，这个强大的规则能修正很多交集型歧义的划分错误。首先我们要维护一个一般不单独成词的字表，比如 “民”、“尘”、“伟”、“习”等等；这些字通常不会单独划出来，都要跟旁边的字一块儿组成一个词。在分词过程中时，一旦发现这些字被孤立出来，都重新考 虑它与前面的字组词的可能。例如，在用最大匹配法切分“为人民服务”时，算法会先划出“为人”一词，而后发现“民”字只能单独成词了。查表却发现，“民” 并不能单独划出，于是考虑进行修正——把“为人”的“人”字分配给“民”字。巧在这下“为”和“人民”正好都能成词，据此便可得出正确的划分“为／人民／ 服务”。</p>
<p>不过，上述算法归根结底，都是在像人一样从左到右地扫描文字。为了把问题变得更加形式化，充分利用计算机的优势，我们还有一种与人的阅读习惯完全 不同的算法思路：把句子作为一个整体来考虑，从全局的角度评价一个句子划分方案的好坏。设计自动分词算法的问题，也就变成了如何评估分词方案优劣的问题。 最初所用的办法就是，寻找词数最少的划分。注意，每次都匹配最长的词，得出的划分不见得是词数最少的，错误的贪心很可能会不慎错过一些更优的路。因而，在 有的情况下，最少词数法比最大匹配法效果更好。若用最大匹配法来划分，“独立自主和平等互利的原则”将被分成“独立自主／和平／等／互利／的／原则”，一 共有 6 个词；但词数更少的方案则是“独立自主／和／平等互利／的／原则”，一共只有 5 个词。</p>
<p>当然，最少词数法也会有踩大便的时候。“为人民办公益”的最大匹配划分和最少词数划分都是“为人／民办／公益”，而正确的划分则是“为／人 民／办／公益”。同时，很多句子也有不止一个词数最少的分词方案，最少词数法并不能从中选出一个最佳答案。不过，把之前提到的“不成词字表”装备到最少词 数法上，我们就有了一种简明而强大的算法：</p>
<p>对于一种分词方案，里面有多少词，就罚多少分；每出现一个不成词的单字，就加罚一分。最好的分词方案，也就是罚分最少的方案。</p>
<p>这种算法的效果出人意料的好。“他说的确实在理”是一个很困难的测试用例，“的确”和“实在”碰巧也成词，这给自动分词带来了很大的障碍。但是“确”、“实”、“理”通常都不单独成词的，因此很多切分方案都会被扣掉不少分：</p>
<p>他／说／的／确实／在理 （罚分：1+1+1+1+1 = 5 ）<br />
他／说／的确／实／在理 （罚分：1+1+1+2+1 = 6 ）<br />
他／说／的确／实在／理 （罚分：1+1+1+1+2 = 6 ）</p>
<p>正确答案胜出。</p>
<p>需要指出的是，这个算法并不需要枚举所有的划分可能。整个问题可以转化为图论中的最短路径问题，利用动态规划效率则会更高。</p>
<p>算法还有进一步加强的余地。大家或许已经想到了，“字不成词”有一个程度的问题。“民”是一个不成词的语素，它是绝对不会单独成词的。 “鸭”一般不单独成词，但在儿歌童谣和科技语体中除外。“见”则是一个可以单独成词的语素，只是平时我们不常说罢了。换句话说，每个字成词都有一定的概 率，每个词出现的频率也是不同的。</p>
<p>何不用每个词出现的概率，来衡量分词的优劣？于是我们有了一个更标准、更连续、更自动的改进算法：先统计大量真实语料中各个词出现的频率，然后把每种分词方案中各词的出现概率乘起来作为这种方案的得分。利用动态规划，不难求出得分最高的方案。</p>
<p>以“有意见分歧”为例，让我们看看最大概率法是如何工作的。查表可知，在大量真实语料中，“有”、“有意”、“意见”、“见”、“分歧”的 出现概率分别是 0.0181 、 0.0005 、 0.0010 、 0.0002 、 0.0001 ，因此“有／意见／分歧”的得分为  1.8×10<sup>-9</sup> ，但“有意／见／分歧”的得分只有 1.0×10<sup>-11</sup> ，正确方案完胜。</p>
<p>这里的假设是，用词造句无非是随机选词连在一块儿，是一个简单的一元过程。显然，这个假设理想得有点不合理，必然会有很多问题。考虑下面这句话：</p>
<p>这／事／的确／定／不／下来</p>
<p>但是概率算法却会把这个句子分成：</p>
<p>这／事／的／确定／不／下来</p>
<p>原因是，“的”字的出现概率太高了，它几乎总会从“的确”中挣脱出来。</p>
<p>其实，以上所有的分词算法都还有一个共同的大缺陷：它们虽然已经能很好地处理交集型歧义的问题，却完全无法解决另外一种被称为“组合型歧 义”的问题。所谓组合型歧义，就是指同一个字串既可合又可分。比如说，“个人恩怨”中的“个人”就是一个词，“这个人”里的“个人”就必须拆开；“这扇门 的把手”中的“把手”就是一个词，“把手抬起来”的“把手”就必须拆开；“学生会宣传部”中的“学生会”就是一个词，“学生会主动完成作业”里的“学生 会”就必须拆开。这样的例子非常多，“难过”、“马上”、“将来”、“才能”、“过人”、“研究所”、“原子能”都有此问题。究竟是合还是分，还得取决于 它两侧的词语。到目前为止，所有算法对划分方案的评价标准都是基于每个词固有性质的，完全不考虑相邻词语之间的影响；因而一旦涉及到组合型歧义的问题，最 大匹配、最少词数、概率最大等所有策略都不能实现具体情况具体分析。</p>
<p>于是，我们不得不跳出一元假设。此时，便有了那个 Google 黑板报上提到的统计语言模型算法。对于任意两个词语 w<sub>1</sub> 、 w<sub>2</sub> ，统计在语料库中词语 w<sub>1</sub> 后面恰好是 w<sub>2</sub> 的概率 P(w<sub>1</sub>, w<sub>2</sub>) 。这样便会生成一个很大的二维表。再定义一个句子的划分方案的得分为 P(∅, w<sub>1</sub>) · P(w<sub>1</sub>, w<sub>2</sub>) · … · P(w<sub>n-1</sub>, w<sub>n</sub>) ，其中 w<sub>1</sub>, w<sub>2</sub>, …, w<sub>n</sub> 依次表示分出的词。我们同样可以利用动态规划求出得分最高的分词方案。这真是一个天才的模型，这个模型一并解决了词类标注、语音识别等各类自然语言处理问题。</p>
<p>至此，中文自动分词算是有了一个漂亮而实用的算法。</p>
<p>但是，随便拿份报纸读读，你就会发现我们之前给出的测试用例都太理想了，简直就是用来喂给计算机的。在中文分词中，还有一个比分词歧义更令人头疼 的东西——未登录词。中文没有首字母大写，专名号也被取消了，这叫计算机如何辨认人名地名之类的东西？最近十年来，中文分词领域都在集中攻克这一难关。</p>
<p>在汉语的未定义词中，中国人名的规律是最强的了。根据统计，汉语姓氏大约有 1000  多个，其中“王”、“陈”、“李”、“张”、“刘”五大姓氏的覆盖率高达 32% ，前 400 个姓氏覆盖率高达 99%  。人名的用字也比较集中，“英”、“华”、“玉”、“秀”、“明”、“珍”六个字的覆盖率就有 10.35% ，最常用的 400 字则有 90%  的覆盖率。虽然这些字分布在包括文言虚词在内的各种词类里，但就用字的感情色彩来看，人名多用褒义字和中性字，少有不雅用字，因此规律性还是非常强的。根 据这些信息，我们足以计算一个字符串能成为名字的概率，结合预先设置的阈值便能很好地识别出可能的人名。</p>
<p>可是，如何把人名从句子中切出来呢？换句话说，如果句中几个连续字都是姓名常用字，人名究竟应该从哪儿取到哪儿呢？人名以姓氏为左边界，相 对容易判定一些。人名的右边界则可以从下文的提示确定出来：人名后面通常会接“先生”、“同志”、“校长”、“主任”、“医生”等身份词，以及“是”、 “说”、“报道”、“参加”、“访问”、“表示”等动作词。</p>
<p>但麻烦的情况也是有的。一些高频姓氏本身也是经常单独成词的常用字，例如“于”、“马”、“黄”、“常”、“高”等等。很多反映时代性的名 字也是本身就成词的，例如“建国”、“建设”、“国庆”、“跃进”等等。更讨厌的就是那些整个名字本身就是常用词的人了，他们会彻底打乱之前的各种模型。 如果分词程序也有智能的话，他一定会把所有叫“高峰”、“汪洋”、”庞博“的人拖出去斩了。</p>
<p>还有那些恰好与上下文组合成词的人名，例如：</p>
<p>费孝通向人大常委会提交书面报告<br />
邓颖超生前使用过的物品</p>
<p>这就是最考验分词算法的句子了。</p>
<p>相比之下，中国地名的用字就分散得多了，重庆就有一个叫做“犀牛屙屎”的地方。不过，中国地名委员会编写了《中华人民共和国地名录》，收录 了从高原盆地到桥梁电站共 10 万多个地名，这让中国地名的识别便利了很多。外文人名和地名的用字非常集中，识别的正确率要高出许多。</p>
<p>真正有些困难的就是识别机构名了，虽然机构名的后缀比较集中，但左边界的判断就有些难了。更难的就是品牌名了。如今各行各业大打创意战，品牌名可以说是无奇不有，而且经常本身就包含常用词，更是给自动分词添加了不少障碍。</p>
<p>最难识别的未登录词就是缩略语了。“教改”、“发改委”、“北医三院”都是比较好认的缩略语了，有些缩略语搞得连人也是丈二和尚摸不着头脑。你能猜到“人影办”是什么机构的简称吗？打死你都想不到，是“人工影响天气办公室”。</p>
<p>汉语中构造缩略语的规律很诡异，目前也没有一个定论。初次听到这个问题，几乎每个人都会做出这样的猜想：缩略语都是选用各个成分中最核心的 字，比如“安全检查”缩成“安检”，“人民警察”缩成“民警”等等。不过，反例也是有的，“邮政编码”就被缩成了“邮编”，但“码”无疑是更能概括“编 码”一词的。当然，这几个缩略语已经逐渐成词，可以加进词库了；不过新近出现的或者临时构造的缩略语该怎么办，还真是个大问题。</p>
<p>说到新词，网络新词的大量出现才是分词系统真正的敌人。这些新词汇的来源千奇百怪，几乎没有固定的产生机制。要想实现对网络文章的自动分词，目前来看可以说是相当困难的。革命尚未成功，分词算法还有很多进步的余地。</p>
<p>注：转载请注明出处“<a href="http://www.52nlp.cn/">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn/">http://www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/matrix67-漫话中文分词算法">http://www.52nlp.cn/matrix67-漫话中文分词算法</a></p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952' rel='bookmark' title='中文分词入门之最大匹配法扩展2'>中文分词入门之最大匹配法扩展2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96' rel='bookmark' title='中文分词入门之篇外'>中文分词入门之篇外</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%951' rel='bookmark' title='中文分词入门之最大匹配法扩展1'>中文分词入门之最大匹配法扩展1</a></li>
<li><a href='http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation' rel='bookmark' title='中文分词入门之最大匹配法'>中文分词入门之最大匹配法</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952' rel='bookmark' title='中文分词入门之字标注法2'>中文分词入门之字标注法2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation' rel='bookmark' title='基于字标注的中文分词方法'>基于字标注的中文分词方法</a></li>
<li><a href='http://www.52nlp.cn/%e6%8e%a8%e8%8d%90%e5%bc%a0%e5%8d%8e%e5%b9%b3%e8%80%81%e5%b8%88%e7%9a%84%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%b7%a5%e5%85%b7-ictclas2010' rel='bookmark' title='推荐张华平老师的中文分词工具ICTCLAS2010'>推荐张华平老师的中文分词工具ICTCLAS2010</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/matrix67-%e6%bc%ab%e8%af%9d%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e7%ae%97%e6%b3%95/feed</wfw:commentRss>
		<slash:comments>5</slash:comments>
		</item>
		<item>
		<title>摘录：祖国应该做海外华人更好的娘家-新马之旅观感</title>
		<link>http://www.52nlp.cn/%e6%91%98%e5%bd%95-%e7%a5%96%e5%9b%bd%e5%ba%94%e8%af%a5%e5%81%9a%e6%b5%b7%e5%a4%96%e5%8d%8e%e4%ba%ba%e6%9b%b4%e5%a5%bd%e7%9a%84%e5%a8%98%e5%ae%b6-%e6%96%b0%e9%a9%ac%e4%b9%8b%e6%97%85%e8%a7%82</link>
		<comments>http://www.52nlp.cn/%e6%91%98%e5%bd%95-%e7%a5%96%e5%9b%bd%e5%ba%94%e8%af%a5%e5%81%9a%e6%b5%b7%e5%a4%96%e5%8d%8e%e4%ba%ba%e6%9b%b4%e5%a5%bd%e7%9a%84%e5%a8%98%e5%ae%b6-%e6%96%b0%e9%a9%ac%e4%b9%8b%e6%97%85%e8%a7%82#comments</comments>
		<pubDate>Tue, 15 Feb 2011 14:39:32 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[转载]]></category>
		<category><![CDATA[随笔]]></category>
		<category><![CDATA[ICTCLAS]]></category>
		<category><![CDATA[张华平]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=3764</guid>
		<description><![CDATA[　　偶尔会去“张华平博士的空间”看看，多数情况下他都会写些与教学或者技术相关的博文。今晚发现他前几天写了一篇《祖国应该做海外华人更好的娘家-新马之旅观感》，读完感慨良多，本想在张老师的文章下留个言，没想到百度空间必须注册才能发表评论，就想到这里了！虽与自然语言处理无关，但觉得还是有一些读者会感兴趣的。以下仅摘录第一段和最后一段，有兴趣的读者可以去张老师的空间看全文。 无法脱俗，春节期间携夫人一起走了一趟新马，新加坡与马来西亚的热带雨林气候造就了这片热土，常年四季如夏，雨水充足，森林覆盖面超过50%，人与自然的和谐统一，人民生活得非常惬意，没有我们那么压力山大。新加坡的人均收入3000新币（大约人民币1.5万），各类开销比较小，政府几乎负担了生老病死，教育从小到大完全免费。向国家买房，代价也不过30万人民币，化妆品国外品牌的服装基本上也就国内价格的5-8折，中国的烟酒在国外只需国内价格的5-8 折，大家明白财政收入增长的原由了吧，祖国，我们拿最低的薪水，花最高的物价，悲乎？马来西亚的经济水平比我们差，但是全民教育免费，看任何病1马币，在吉隆坡购买一套房也不过3万马币（约6.4万人民币），保障了国民的教育、医疗和住房，中国立马和谐稳定。我们还有很大的差距，还有很多的工作要做。 &#8230; 有位好友在日本生活多年，因为民族感情，迟迟不愿加入日本国籍，去年归国，有关部门以超生为由，至今无法为他的一对儿女落户，成为黑户，不得以加入加拿大国籍，苦笑一句：“我爱祖国，祖国不爱我”。改用西汉名将甘延寿和陈汤的名句，“犯我大汉子民者，虽远，必诛！”，祖国不是空泛的概念，不仅仅是动员我们奉献的主体，更应该是我们的娘家，是在我们包括海外华人受到侵犯是的保护神，这些才能让我们感觉到祖国的存在。政府和外交还有很大的差距。 　　而至于我的感慨，此处省略五千字! 注：转载请注明出处“我爱自然语言处理”：http://www.52nlp.cn 本文链接地址：http://www.52nlp.cn/摘录-祖国应该做海外华人更好的娘家-新马之旅观 相关文章: 推荐张华平老师的中文分词工具ICTCLAS2010
相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e6%8e%a8%e8%8d%90%e5%bc%a0%e5%8d%8e%e5%b9%b3%e8%80%81%e5%b8%88%e7%9a%84%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%b7%a5%e5%85%b7-ictclas2010' rel='bookmark' title='推荐张华平老师的中文分词工具ICTCLAS2010'>推荐张华平老师的中文分词工具ICTCLAS2010</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　偶尔会去“<a href="http://hi.baidu.com/drkevinzhang"target=_blank>张华平博士的空间</a>”看看，多数情况下他都会写些与教学或者技术相关的博文。今晚发现他前几天写了一篇《<a href="http://hi.baidu.com/drkevinzhang/blog/item/701d416eb1ee04e842169444.html"target=_blank>祖国应该做海外华人更好的娘家-新马之旅观感</a>》，读完感慨良多，本想在张老师的文章下留个言，没想到百度空间必须注册才能发表评论，就想到这里了！虽与自然语言处理无关，但觉得还是有一些读者会感兴趣的。以下仅摘录第一段和最后一段，有兴趣的读者可以去张老师的空间看全文。</p>
<blockquote><p>无法脱俗，春节期间携夫人一起走了一趟新马，新加坡与马来西亚的热带雨林气候造就了这片热土，常年四季如夏，雨水充足，森林覆盖面超过50%，人与自然的和谐统一，人民生活得非常惬意，没有我们那么压力山大。新加坡的人均收入3000新币（大约人民币1.5万），各类开销比较小，政府几乎负担了生老病死，教育从小到大完全免费。向国家买房，代价也不过30万人民币，化妆品国外品牌的服装基本上也就国内价格的5-8折，中国的烟酒在国外只需国内价格的5-8 折，大家明白财政收入增长的原由了吧，祖国，我们拿最低的薪水，花最高的物价，悲乎？马来西亚的经济水平比我们差，但是全民教育免费，看任何病1马币，在吉隆坡购买一套房也不过3万马币（约6.4万人民币），保障了国民的教育、医疗和住房，中国立马和谐稳定。我们还有很大的差距，还有很多的工作要做。</p>
<p>&#8230;</p>
<p>有位好友在日本生活多年，因为民族感情，迟迟不愿加入日本国籍，去年归国，有关部门以超生为由，至今无法为他的一对儿女落户，成为黑户，不得以加入加拿大国籍，苦笑一句：“我爱祖国，祖国不爱我”。改用西汉名将甘延寿和陈汤的名句，“犯我大汉子民者，虽远，必诛！”，祖国不是空泛的概念，不仅仅是动员我们奉献的主体，更应该是我们的娘家，是在我们包括海外华人受到侵犯是的保护神，这些才能让我们感觉到祖国的存在。政府和外交还有很大的差距。
</p></blockquote>
<p>　　而至于我的感慨，此处省略五千字!<br />
<span id="more-3764"></span><br />
注：转载请注明出处“<a href="http://www.52nlp.cn/">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn/">http://www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/摘录-祖国应该做海外华人更好的娘家-新马之旅观">http://www.52nlp.cn/摘录-祖国应该做海外华人更好的娘家-新马之旅观</a></p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e6%8e%a8%e8%8d%90%e5%bc%a0%e5%8d%8e%e5%b9%b3%e8%80%81%e5%b8%88%e7%9a%84%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%b7%a5%e5%85%b7-ictclas2010' rel='bookmark' title='推荐张华平老师的中文分词工具ICTCLAS2010'>推荐张华平老师的中文分词工具ICTCLAS2010</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e6%91%98%e5%bd%95-%e7%a5%96%e5%9b%bd%e5%ba%94%e8%af%a5%e5%81%9a%e6%b5%b7%e5%a4%96%e5%8d%8e%e4%ba%ba%e6%9b%b4%e5%a5%bd%e7%9a%84%e5%a8%98%e5%ae%b6-%e6%96%b0%e9%a9%ac%e4%b9%8b%e6%97%85%e8%a7%82/feed</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>一种基于生语料的无监督的语法规则学习方法</title>
		<link>http://www.52nlp.cn/%e4%b8%80%e7%a7%8d%e5%9f%ba%e4%ba%8e%e7%94%9f%e8%af%ad%e6%96%99%e7%9a%84%e6%97%a0%e7%9b%91%e7%9d%a3%e7%9a%84%e8%af%ad%e6%b3%95%e8%a7%84%e5%88%99%e5%ad%a6%e4%b9%a0%e6%96%b9%e6%b3%95</link>
		<comments>http://www.52nlp.cn/%e4%b8%80%e7%a7%8d%e5%9f%ba%e4%ba%8e%e7%94%9f%e8%af%ad%e6%96%99%e7%9a%84%e6%97%a0%e7%9b%91%e7%9d%a3%e7%9a%84%e8%af%ad%e6%b3%95%e8%a7%84%e5%88%99%e5%ad%a6%e4%b9%a0%e6%96%b9%e6%b3%95#comments</comments>
		<pubDate>Thu, 23 Dec 2010 07:20:54 +0000</pubDate>
		<dc:creator>kingsten_88</dc:creator>
				<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[转载]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=3610</guid>
		<description><![CDATA[    【译者注：自然语言理解绝不是一种单纯的数学游戏，也不是单纯的语言哲学所描述的体系，因此，过分地讨论算法和语言教条都不是有前途的道路。自然语言理解是介于信息积累和语言教条综合执行的过程，因此，未来的方向也许主要停留在关注语言学习的研究方法上。 本文正是利用信息统计的手段解决传统规则学习的一种有价值的探索。因此，译者深受启发，便连夜翻译出来，希望该文也能成为大家的一盏灯。由于译者英语水平有限，加上专业知识不足，翻译必有错谬之处，请各位道友争相指正。 本文原地址：kybele.psych.cornell.edu/~edelman/adios-nips-workshop.pdf】 Shimon Edelman                        Zach Solan, David Horn, Eytan Ruppin Department of Psychology                           Sackler Faculty of Exact Sciences Cornell University                                        Tel Aviv University Ithaca, NY 14853, USA                               Tel Aviv, Israel 69978 se37@cornell.edu                                        {frsolan,horn,rupping}@post.tau.ac.il 摘要  我们将自己开发的无监督语言学习模型ADIOS [1]，与计算语言学和语法理论的最新工作做了一下比较。我们的方法，就一般原理来看，类似于结构语法（比如，依赖于结构生成方式，但不又像当前生成理论由词汇反映语法知识那样），而就计算特性来看，系统又类似于语法树链接方法（比如，明显具有上下文相关特性)。我们的算法学习到的表达式完全源于语料数据（无标注），而现有关于认知和结构语法以及TAGs的文献中，这些都是由人工来制定的。因而，我们的成果完善并延伸了计算学、尤其是语言学在语言学习方面的研究。该研究也表明了语言的经验化和形式化研究也可以得到有效的结合。 1 利用去冗余的方式进行无监督学习 &#8230; <a href="http://www.52nlp.cn/%e4%b8%80%e7%a7%8d%e5%9f%ba%e4%ba%8e%e7%94%9f%e8%af%ad%e6%96%99%e7%9a%84%e6%97%a0%e7%9b%91%e7%9d%a3%e7%9a%84%e8%af%ad%e6%b3%95%e8%a7%84%e5%88%99%e5%ad%a6%e4%b9%a0%e6%96%b9%e6%b3%95">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-seven-other-book' rel='bookmark' title='自然语言处理与计算语言学书籍汇总之七：其他书籍'>自然语言处理与计算语言学书籍汇总之七：其他书籍</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e7%bf%bb%e8%af%91%e6%8a%80%e6%9c%af%e6%b2%99%e9%be%99%e7%ac%ac%e4%b9%9d%e6%ac%a1%e6%b4%bb%e5%8a%a8' rel='bookmark' title='中文翻译技术沙龙第九次活动'>中文翻译技术沙龙第九次活动</a></li>
<li><a href='http://www.52nlp.cn/%e6%9b%bf%e5%af%bc%e5%b8%88%e6%8b%9b%e5%ad%a6%e7%94%9f-ph-d-research-assistant-in-machine-learning-and-nlp' rel='bookmark' title='招生：Ph.D research assistant in machine learning and NLP'>招生：Ph.D research assistant in machine learning and NLP</a></li>
<li><a href='http://www.52nlp.cn/recruiting-ph-d-students' rel='bookmark' title='recruiting Ph.D. students'>recruiting Ph.D. students</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-%e8%af%84%e8%bf%b0%e8%8a%82%e9%80%89' rel='bookmark' title='ACL-IJCNLP 2009 评述节选'>ACL-IJCNLP 2009 评述节选</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-common-abbreviations-acronyms' rel='bookmark' title='自然语言处理及计算语言学常见缩略语'>自然语言处理及计算语言学常见缩略语</a></li>
<li><a href='http://www.52nlp.cn/niutrans-%e4%b8%80%e5%a5%97%e5%bc%80%e6%ba%90%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b9%b3%e5%8f%b0' rel='bookmark' title='NiuTrans: 一套开源的统计机器翻译平台'>NiuTrans: 一套开源的统计机器翻译平台</a></li>
<li><a href='http://www.52nlp.cn/%e6%9d%a1%e4%bb%b6%e9%9a%8f%e6%9c%ba%e5%9c%ba%e6%96%87%e7%8c%ae%e9%98%85%e8%af%bb%e6%8c%87%e5%8d%97' rel='bookmark' title='条件随机场文献阅读指南'>条件随机场文献阅读指南</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-five-machine-translation' rel='bookmark' title='自然语言处理与计算语言学书籍汇总之五：机器翻译'>自然语言处理与计算语言学书籍汇总之五：机器翻译</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-one-foreign-book' rel='bookmark' title='自然语言处理与计算语言学书籍汇总之一：国外书籍'>自然语言处理与计算语言学书籍汇总之一：国外书籍</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><a rel="attachment wp-att-3622" href="http://www.52nlp.cn/%e4%b8%80%e7%a7%8d%e5%9f%ba%e4%ba%8e%e7%94%9f%e8%af%ad%e6%96%99%e7%9a%84%e6%97%a0%e7%9b%91%e7%9d%a3%e7%9a%84%e8%af%ad%e6%b3%95%e8%a7%84%e5%88%99%e5%ad%a6%e4%b9%a0%e6%96%b9%e6%b3%95/attachment/1"></a>    【译者注：自然语言理解绝不是一种单纯的数学游戏，也不是单纯的语言哲学所描述的体系，因此，过分地讨论算法和语言教条都不是有前途的道路。自然语言理解是介于信息积累和语言教条综合执行的过程，因此，未来的方向也许主要停留在关注语言学习的研究方法上。<br />
本文正是利用信息统计的手段解决传统规则学习的一种有价值的探索。因此，译者深受启发，便连夜翻译出来，希望该文也能成为大家的一盏灯。由于译者英语水平有限，加上专业知识不足，翻译必有错谬之处，请各位道友争相指正。<br />
本文原地址：kybele.psych.cornell.edu/~edelman/adios-nips-workshop.pdf】<br />
<strong>Shimon Edelman                        Zach Solan, David Horn, Eytan Ruppin<br />
Department of Psychology                           Sackler Faculty of Exact Sciences<br />
Cornell University                                        Tel Aviv University<br />
Ithaca, NY 14853, USA                               Tel Aviv, Israel 69978<br />
<a href="mailto:se37@cornell.edu">se37@cornell.edu</a>                                        {frsolan,horn,rupping}@post.tau.ac.il<br />
</strong><strong>摘要</strong><strong> </strong></p>
<p>我们将自己开发的无监督语言学习模型ADIOS [1]，与计算语言学和语法理论的最新工作做了一下比较。我们的方法，就一般原理来看，类似于结构语法（比如，依赖于结构生成方式，但不又像当前生成理论由词汇反映语法知识那样），而就计算特性来看，系统又类似于语法树链接方法（比如，明显具有上下文相关特性)。我们的算法学习到的表达式完全源于语料数据（无标注），而现有关于认知和结构语法以及TAGs的文献中，这些都是由人工来制定的。因而，我们的成果完善并延伸了计算学、尤其是语言学在语言学习方面的研究。该研究也表明了语言的经验化和形式化研究也可以得到有效的结合。<span id="more-3610"></span></p>
<p><strong>1 </strong><strong>利用去冗余的方式进行无监督学习</strong><strong> </strong></p>
<p>去冗余是无监督学习的一般方法（也是目前可行的唯一方法）[2, 3]。书面语信息（或者翻录语音）相对于所用词典信息，多少是有些冗余的。因而，该特性能够让一个省略空格的文本语料的词语得以自动还原，这主要通过每个字母的信息熵最小化方法[4]。</p>
<p>信息熵最小化方法也会遇到一种尴尬的情况，那就是基础词串接连嵌入更长的基础序列，这导致推导而得的表达式不可以用于新文本的处理（即，不具有生成能力；cf. [5], p.188）。据我们观察，由于不同句子会有同样的词语序列，就是基于词的表达式的信息仍然是相当冗余的。这样的词语序列并不一定是完全紧密相邻的；事实上，经典语言分布理论[6]以及现代NLP方法[7]中，也需要针对一系列完全对齐序列中（语段）的可变槽语段的分析技术。模式—一截语段和一些等价类（补充型分布符号）可以出现在可变槽中—是我们的系统ADIOS（Automatic DIstillation Of Structure) [1]的主要表达形式。</p>
<p>我们的目标是，在统计和形式方法[9]之间建立起桥梁，通过上下文无监督自动结构学习，解决当前计算语言学中所涉及的语法习取问题，并将之与某些形式语法理论建立起联系。第2节概要描述了ADIOS 模型所采用的主要计算原理（算法细节和实验结果，参见[1, 10]）。第3、4节分别从计算语言学和形式语言学的角度比较我们的模型。最后在第5节讨论了未来的挑战。</p>
<p><strong>2 ADIOS</strong><strong>的原理</strong><strong> </strong></p>
<p>ADIOS的表达能力和它的无监督学习能力依赖于3个基础： (1) 模式价值的概率推导， (2) 基于上下文的生成，以及 (3) 递归构造更复杂的模式。下面对这3个基础作以简要的描述。</p>
<p><a rel="attachment wp-att-3626" href="http://www.52nlp.cn/%e4%b8%80%e7%a7%8d%e5%9f%ba%e4%ba%8e%e7%94%9f%e8%af%ad%e6%96%99%e7%9a%84%e6%97%a0%e7%9b%91%e7%9d%a3%e7%9a%84%e8%af%ad%e6%b3%95%e8%a7%84%e5%88%99%e5%ad%a6%e4%b9%a0%e6%96%b9%e6%b3%95/1-2"><img class="aligncenter size-full wp-image-3626" src="http://www.52nlp.cn/wp-content/uploads/2010/12/1.bmp" alt="" /></a><a rel="attachment wp-att-3622" href="http://www.52nlp.cn/%e4%b8%80%e7%a7%8d%e5%9f%ba%e4%ba%8e%e7%94%9f%e8%af%ad%e6%96%99%e7%9a%84%e6%97%a0%e7%9b%91%e7%9d%a3%e7%9a%84%e8%af%ad%e6%b3%95%e8%a7%84%e5%88%99%e5%ad%a6%e4%b9%a0%e6%96%b9%e6%b3%95/attachment/1"></a></p>
<p>图1： (a) 一个由简单语料形成的多叉有向图， 共有4个句子，句子部分拧成线束，了一个模式：<strong>is that a {dog, cat, horse} ?</strong>。 (b) 抽取的模式及其等价类被高亮显示(虽属于序列但不被模式覆盖的边没有改动，如#104)。 (c) 新的有价值的模式使用了已经学习到的等价类(如#200)。详细内容见[1]。</p>
<p><strong>模式价值的概率推导。</strong>ADIOS 将语料的句子表示成高度冗余的有向图，该图可想像成一团线，其中许多线在一些部分可能拧成线束(Figure 1)。一个线束的形成开始于两个或者更多的线在某处纠结一起，再平行一段距离，然后在离开的线多于继续下来的线时就结束了。</p>
<p><a rel="attachment wp-att-3627" href="http://www.52nlp.cn/%e4%b8%80%e7%a7%8d%e5%9f%ba%e4%ba%8e%e7%94%9f%e8%af%ad%e6%96%99%e7%9a%84%e6%97%a0%e7%9b%91%e7%9d%a3%e7%9a%84%e8%af%ad%e6%b3%95%e8%a7%84%e5%88%99%e5%ad%a6%e4%b9%a0%e6%96%b9%e6%b3%95/2-3"><img class="aligncenter size-full wp-image-3627" src="http://www.52nlp.cn/wp-content/uploads/2010/12/2.bmp" alt="" /></a></p>
<p>图2：动态决定线束的核心。主要思想是决定同一个线束上两个元素ei 和 ej的归属关系，这根据向前和向后沿着线束路径计算ei到ej的概率： 要成为候选线束的新元素，只要它的加入会引起相应的PR和PL增大，就可以保留下来(如，P(A) &lt; P(B|A) &lt; P(C|AB) &lt; P(D|ABC) &gt; P(E|ABCD)，因此，线束结束于D节点)。 在图中，相关的一些概率是很容易计算的：比如，P(C|AB) = 3/4 ，因为有4条路线经过A和B，而其中只有3条路线继续经过C。</p>
<p>对于特定的语料，可能有许多线束，每一根线（句子）都可能参与某几个。面对的计算挑战是如何识别有价值的线束，以便平衡高压缩率（表示线束“词汇”的数量）和高质量的生成能力（拼接不同线束中片段而产生新句子的能力）。解决该问题的直观图示见图2。</p>
<p><strong>基于上下文的生成。</strong> 一个模式就是一束句子的概要描述，这些句子完全相同，除了在某个地方有变化(Figure 3)，变化位置可为几个符号之一—对应于该模式的等价类的成员。因为该变化能力受限于该模式所在的上下文中，因此，模式之间的生成能力，相对于那些用范畴（词性）和规则（语法）进行全局校验的方法而言，显然更加保守一些。基于上下文的模式的ADIOS，不同于传统的规则，它的可靠性既能看作结构语法（后面论述），又能看作Langacker([11], p.46)的结论：“从大量特定演讲者的言语中尽可能提取全部一般化模式，其大部分是有限范围的，而且一些形式根本不能被一般模式所同化。从这种角度看，这时并不希望有完全的一般化规则，相反，需要一个包含一些生成程度较弱的特殊形式和模式的连续体系”。</p>
<p><a rel="attachment wp-att-3628" href="http://www.52nlp.cn/%e4%b8%80%e7%a7%8d%e5%9f%ba%e4%ba%8e%e7%94%9f%e8%af%ad%e6%96%99%e7%9a%84%e6%97%a0%e7%9b%91%e7%9d%a3%e7%9a%84%e8%af%ad%e6%b3%95%e8%a7%84%e5%88%99%e5%ad%a6%e4%b9%a0%e6%96%b9%e6%b3%95/3-2"><img class="aligncenter size-full wp-image-3628" src="http://www.52nlp.cn/wp-content/uploads/2010/12/3.bmp" alt="" /></a><a rel="attachment wp-att-3624" href="http://www.52nlp.cn/%e4%b8%80%e7%a7%8d%e5%9f%ba%e4%ba%8e%e7%94%9f%e8%af%ad%e6%96%99%e7%9a%84%e6%97%a0%e7%9b%91%e7%9d%a3%e7%9a%84%e8%af%ad%e6%b3%95%e8%a7%84%e5%88%99%e5%ad%a6%e4%b9%a0%e6%96%b9%e6%b3%95/attachment/3"></a></p>
<p>图3：从一部分CHILDES语料 [8]提取的两个典型模式。 上百个这样的模式和等价类（带下划线）一起构成了原始数据的压缩表示。 通过这些模式能够描述或生成的短语有：<strong>let’s change her&#8230;; I thought you gonna change her&#8230;; I was going to go to the&#8230;;</strong> 这些无一个出现在训练语料中，这表明了ADIOS的生成能力。 在左边显示了具体的生成过程，即深度优先搜索一个模式所示的树。细节见[1]。</p>
<p><strong>递归构造复杂模式。 </strong>通过两个相关机制，ADIOS实现了长距离的相关性：模式的层级嵌套和自我复用的模式递归。每当一个新的有价值的模式被发现，ADIOS的基本数据结构图将重新布线，以便模式所覆盖的线束用一根新弧线来表示；这种重布线是基于上下文的，就像模式本身应该归属所在位置一样[1]。 一旦重新布线，那些可能跨越新提取线束的潜在远距离符号，就变成了邻居。因而，模式形成了层次结构，因为他们的成分要么是终端（即，完全特定字符串），要么是其他模式。更重要是，模式可以引用自身，这一点意味着实现了真正的递归(实际上，不限於实施条件的话，递归的深度只取决于可多次后继布线的数据)。</p>
<p><strong> </strong></p>
<p><strong>3 </strong><strong>有关计算方法</strong><strong> </strong></p>
<p>自然语言处理 (NLP)有两类无监督学习方法，一类是企图寻找好的结构化原词集，一类是对预定义原词集寻找好的参数设置。很明显ADIOS属于第一类。更重要的是，我们的算法能够直接学习生语料，而大部分的其他系统要利用词性标注语料，或者语法树库（人工句法分析库[13]）。在此我们比较几个这样的方法。</p>
<p><strong>利用标注语料全局语法优化</strong>。 Stolcke 和 Omohundro [14]在给定语料下，通过不断扩大靠近目标语法的概率，学习结构（隐马模型的结构，或者随机的上下文无关语法）。 该方法在每次迭代时，所有语料均要参与特征学习，因此，它是全局计算的，与此方法相比， ADIOS 是局部的，因为它的推导仅仅作用于当前线束。 另一个重要差别是，不用词性所表示的一般范畴规则，我们寻找的是上下文相关的模式。也许正因为它的全局性和语境不受限的规则， Stolcke和Omohundro的方法很难适用于大规模自然语言应用[14]。Clark也得出过类似结论，他认为词性标记不足以学习语法（“大量语法都有特殊词语的特质”[15], p.36）。Clark的算法[16]企图从标注文本中学习基于短语结构的语法，该方法开始利用局部的分布信息，然后利用互信息指标过滤掉不正确的非终端（即，在模式的前缀和后缀之间要求较高的互信息值）。最后，他的算法对结果聚类，以便获取最短描述长度(MDL)的表示，选取过程如下：从最长似然语法开始，然后贪婪地选择那些会最大程度减少描述长度的截段。在贪婪的优化方法上（但不在局部搜索好的模式，也不能处理无标注的语料数据），我们的方法类似于Clark的算法。</p>
<p><strong>基于树库的概率学习</strong>。 Bod的算法从复合树上搜集语料概率信息，他说道：“[. . . ]讲话人和听话人之间传递的知识不能被理解为一种语法机制，而是基于语言经验的统计总和，每次感知和生成新的言语时，这些统计总和均有所变化。在语言上我们所遵循的规律可以看作一种突生现象，但他们不能归纳进某种一致的非冗余的系统，那种系统能直接就可以明确定义出这些新生言语的结构([13], p.145)。因此，它的基于记忆和模拟的语言模型并不是典型的去冗余的无监督学习；我们在此提到它，主要因为它采用了类似的数据表示结构（随机树置换语法[17]）和第4节要讨论的一些形式内容。</p>
<p><strong>模式学习的分裂和聚合</strong>。 由Wolff开发的无监督学习算法的优点是不需要标注数据。在1988年的一节篇章中，描述了它的系统[5]，Wolff进行了早期无监督的语言或一些相关行为数据学习的探索。他的表示的组成元素有：SYN (结构语段), PAR (实例聚合体) 和 M (终端符号)。尽管我们的模式和等价类类似于前两者，但是，Wolff的学习规范比ADIOS要简单一些：每次迭代时，两个最频繁出现的邻近SYN元素就连接在一起。但是，该系统有一个唯一的保证，阻止无监督学习算法通常有的过生成问题：不允许PAR元素在一定上下文中各个成员间自由替换，总是需要根据特定上下文来重构。很遗憾，由于实施原因，Wolff的系统没有在非受限自然语言中做过测试。</p>
<p><strong>4 </strong><strong>有关语言学的方法</strong><strong> </strong></p>
<p>我们的工作是数据驱动型，而不是理论驱动型，因为我们对系统要生成的规则类型不做预先假设 (参见第2节关于Langacker [11]的引述)。 很明显，ADIOS学习得到的具有递归层次和参数化的模式及其它们在新句子的处理和生成方式上，很像一些广泛研究的结构语法形式的特征。ADIOS与这些形式结构之间的异同在本节后面有简略讨论。我们在那些主要由语言心理学为基础的方法（认知语法和结构语法）与那些以纯计算为基础的方法（局部和树链接语法）之间做一些比较。</p>
<p><strong>认知语法。</strong>ADIOS的主要方法原则 — 将具有不同复杂性的词汇单元组织起来，而且在学习和表示上，使用了一般的认知原理—完全基于Langacker [11]所制定的认知语法的。认知语法一般企图人工制作结构，那将反映他们所认为的语言逻辑，而ADIOS 是通过经验而不是照搬他们的方法来发现语言的原词。</p>
<p><strong>结构语法</strong>。 ADIOS 和各种结构语法[18, 19]有许多相似性 (尽管后者是人工制作的)。结构语法是有许多元素组成，各元素之间在复杂性和特有的自由度是不同的：比如，习语“big deal”是一个完全实例化而不可改变的结构，而 表达式“the X, the Y” (比如“the more，the better”；参见 [20]) 是部分实例化的模板。ADIOS 学习到的模式，也会随着复杂性和实例化程度的差异而不同(比如，不是每一个模式都有等价类)。更重要的是， 我们怀疑这些模式抓住了大量句子的语义信息，就像结构被用于以一种适合于语言的结构限制的形式表达信息概念或语义内容的媒介一样。这种论断的正确评估需要出现一种新的语义理论，可以处理自然语言的所有复杂性—当前形式理论[21]尚不具备这点。我们赞同Jackendoff的立场：“[. . . ] 我们显然拒绝概念结构[. . . ]意味着一切。相反，我们宁愿说他们意味着：他们只是在意义上做了应该做的事情，比如推导和判断。” ([22], p.306)。</p>
<p><strong>树链接语法。</strong>在捕获语言内在的规则性，在语料中的多交叉路径上，ADIOS 更像Gross[23]的有限状态局部语法方法。但是，要注意的是，我们基于模式的表达式有类似的两种操作：置换和连接，这就是树链接语法的特征，或者是由Joshi [25]等人开发的TAG的特征。尤其，置换和连接表现在ADIOS的模式之间的关系上：比如，一个模式成为另一个模式的组成部分（参见第2节）。一个模式Pi 和它的等价类 E(Pi)；任何其他的模式 Pj属于 E(Pi) ，能看作Pi的可替换部分。同样，如果Pj 属于 E(Pi)，Pk属于E(Pi) 并且 Pk 属于E(Pj)，那么， 模式Pj 可以与模式Pi连接。由于在TAG操作和ADIOS模式之间存在对应关系，我们相信，后者更能表示弱上下文形式语言所描述的规则性[25]。此外， ADIOS模式从数据学习而来，他们已经将约束条件融进了置换和连接操作中，而这些在旧的TAG框架中却需要人工制定。</p>
<p><strong>5 </strong><strong>前景与挑战</strong><strong> </strong></p>
<p>将我们无监督的学习方法(对于一些生语料数据，比如转录的儿童语言，进行学习展示了较大的前景[1])与最近一些计算语言学和语法理论的工作做了些比较。ADIOS关于语言知识表示的方法类似于结构语法(如，结构生成而不是词汇语法), 和树邻接语法(如，明显接受弱上下文语言)。ADIOS的表示完全来自于无标注语料数据，而当前公开的认知和结构语法以及TAG都是人工制定的。因而，我们的成果完善并延伸了计算学、尤其是语言学在认知/结构语法方面的研究。</p>
<p>要进一步推动完整的语言理解，还将面对一项关键挑战：开发一种评估无监督语言学习系统效能的可行方法，既可以测试 (1) 关于语言法则的中性特征，和 (2)过去半个世纪以来语言学家们总结的大量的认知现象。</p>
<p>从生语料进行无监督语法推导很难测试，因为任何供测试用的“可靠标准”的表达式(比如 Penn Treebank [26])，不可避免带有设计者的语言偏见，这可能并不是合理的，而且在语言学家自身[16]之间也会存在冲突。正如Wolff 所述，一个儿童“. . . 必须从语言例子中概括，但不能过度概括到语言中不存在的言语范围。奇怪的是两种概括就儿童的经验来看都为0频次。”  ([5], p.183, italics in the original)。 暂不将解释的责任归于尚不明朗的进化过程 (即先天语法假设)，我们建议，一个像ADIOS的系统应该这样被测试，让系统接受大量人工生成的数据，观测其效果，同时，也让人来评估系统生成的句子 (注意，语言心理学在此过程中起到关键作用)。</p>
<p>这样纯经验评估的方法，会浪费对语言学家几十年来所搜集的大量宝贵的语言规律的考察机会。尽管一些经验主义者会视之为一种公平的代价，可以隔离他们感觉到的超出心理和计算现实的失控理论，但是，我们相信应该能寻找一个中间方法，并且也能够找到，只要语言学家能够被说服去以一种非纯理论的方式尝试和呈现他们的主要发现成果。从最近的语法评述来看，语法趋向于语言学家之外 (如[27])，每个语言学习系统的设计者都关注的核心问题好像是相关性(如，互引用)和相关性条件(如，孤点条件)，尤其在多语类型比较（跨语言）方面更明显[19]。</p>
<p><strong>致谢。</strong>本项目由US-Israel 两国科学基金赞助。</p>
<p><strong>参考文献</strong><strong> </strong></p>
<p>[1] Z. Solan, E. Ruppin, D. Horn, and S. Edelman. Automatic acquisition and efficient representation of syntactic structures. In S. Thrun, editor, Advances in Neural Information Processing, volume 15, Cambridge, MA, 2003. MIT Press.</p>
<p>[2] H. B. Barlow.</p>
<p>Sensory mechanisms, the 去冗余, and intelligence. In The</p>
<p>mechanisation of thought processes, pages 535–539. H.M.S.O., London, 1959.</p>
<p>[3] H. B. Barlow. What is the computational goal of the neocortex? In C. Koch and J. L. Davis, editors,</p>
<p>Large-scale neuronal theories of the brain, chapter 1, pages 1–22. MIT Press, Cambridge,</p>
<p>MA, 1994.</p>
<p>[4] N. Redlich. Redundancy reduction as a strategy for unsupervised learning.</p>
<p>Neural Computation,</p>
<p>5:289–304, 1993.</p>
<p>[5] J. G. Wolff. Learning syntax and meanings through optimization and distributional analysis. In</p>
<p>Y. Levy, I. M. Schlesinger, and M. D. S. Braine, editors, Categories and Processes in Language</p>
<p>Acquisition, pages 179–215. Lawrence Erlbaum, Hillsdale, NJ, 1988.</p>
<p>[6] Z. S. Harris. Distributional structure. Word, 10:140–162, 1954.</p>
<p>[7] M. van Zaanen. ABL: Alignment-Based Learning. In COLING 2000 -Proceedings of the 18th</p>
<p>International Conference on Computational Linguistics, pages 961–967, 2000.</p>
<p>[8] B. MacWhinney and C. Snow.</p>
<p>The Child Language Exchange System. Journal of Computational</p>
<p>Lingustics, 12:271–296, 1985.</p>
<p>[9] F. Pereira. Formal grammar and information theory: Together again?</p>
<p>Philosophical Transactions</p>
<p>of the Royal Society, 358(1769):1239–1253, 2000.</p>
<p>[10] Z. Solan, E. Ruppin, D. Horn, and S. Edelman. Unsupervised efficient learning and representation</p>
<p>of language structure. In R. Alterman and D. Kirsh, editors, Proc. 25th Conference of the</p>
<p>Cognitive Science Society, Hillsdale, NJ, 2003. Erlbaum. in press.</p>
<p>[11] R. W. Langacker. Foundations of cognitive grammar, volume I: theoretical prerequisites. Stanford</p>
<p>University Press, Stanford, CA, 1987.</p>
<p>[12] D. Klein and C. D. Manning. Natural language grammar induction using a constituent-context</p>
<p>model. In T. G. Dietterich, S. Becker, and Z. Ghahramani, editors, Advances in Neural Information</p>
<p>Processing Systems 14, Cambridge, MA, 2002. MIT Press.</p>
<p>[13] R. Bod. Beyond grammar: an experience-based theory of language. CSLI Publications, Stanford,</p>
<p>US, 1998.</p>
<p>[14] A. Stolcke and S. Omohundro. Inducing probabilistic grammars by Bayesian model merging.</p>
<p>In R. C. Carrasco and J. Oncina, editors, Grammatical Inference and Applications, pages 106–</p>
<p>118. Springer, 1994.</p>
<p>[15] A. Clark.</p>
<p>Unsupervised Language Acquisition: Theory and Practice. PhD thesis, COGS,</p>
<p>University of Sussex, 2001.</p>
<p>[16] A. Clark. Unsupervised induction of Stochastic Context-Free Grammars using distributional</p>
<p>clustering. In Proceedings of CoNLL 2001, Toulouse, 2001.</p>
<p>[17] R. Scha, R. Bod, and K. Sima’an. A memory-based model of syntactic analysis: data-oriented</p>
<p>parsing. J. of Experimental and Theoretical Artificial Intelligence, 11:409–440, 1999.</p>
<p>[18] A. E. Goldberg. Constructions: a new theoretical approach to language.</p>
<p>Trends in Cognitive</p>
<p>Sciences, 7:219–224, 2003.</p>
<p>[19] W. Croft. Radical Construction Grammar: syntactic theory in typological perspective. Oxford</p>
<p>University Press, Oxford, 2001.</p>
<p>[20] P. Kay and C. J. Fillmore. Grammatical constructions and linguistic generalizations: the What’s</p>
<p>X Doing Y? construction. Language, 75:1–33, 1999.</p>
<p>[21] P. M. Pietroski. The character of natural language semantics. In A. Barber, editor, Epistemology</p>
<p>of Language. Oxford University Press, Oxford, UK, 2003. to appear.</p>
<p>[22] R. Jackendoff. Foundations of language. Oxford University Press, Oxford, 2002.</p>
<p>[23] M. Gross. The construction of local grammars. In E. Roche and Y. Schab`es, editors, Finite-</p>
<p>State Language Processing, pages 329–354. MIT Press, Cambridge, MA, 1997.</p>
<p>[24] M. M¨uhlmann. Variable Length Markov Chains: Methodology, computing and</p>
<p>achler and P. B¨</p>
<p>software. Seminar for Statistics Report 104, ETH Z¨urich, 2002.</p>
<p>[25] A. Joshi and Y. Schabes. Tree-Adjoining Grammars. In G. Rozenberg and A. Salomaa, editors,</p>
<p>Handbook of Formal Languages, volume 3, pages 69 – 124. Springer, Berlin, 1997.</p>
<p>[26] M. P. Marcus, B. Santorini, and M. A. Marcinkiewicz. Building a large annotated corpus of</p>
<p>English: The Penn Treebank. Computational Linguistics, 19(2):313–330, 1994.</p>
<p>[27] C. Phillips. Syntax. In L. Nadel, editor, Encyclopedia of Cognitive Science, volume 4, pages</p>
<p>319–329. Macmillan, London, 2003.</p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-seven-other-book' rel='bookmark' title='自然语言处理与计算语言学书籍汇总之七：其他书籍'>自然语言处理与计算语言学书籍汇总之七：其他书籍</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e7%bf%bb%e8%af%91%e6%8a%80%e6%9c%af%e6%b2%99%e9%be%99%e7%ac%ac%e4%b9%9d%e6%ac%a1%e6%b4%bb%e5%8a%a8' rel='bookmark' title='中文翻译技术沙龙第九次活动'>中文翻译技术沙龙第九次活动</a></li>
<li><a href='http://www.52nlp.cn/%e6%9b%bf%e5%af%bc%e5%b8%88%e6%8b%9b%e5%ad%a6%e7%94%9f-ph-d-research-assistant-in-machine-learning-and-nlp' rel='bookmark' title='招生：Ph.D research assistant in machine learning and NLP'>招生：Ph.D research assistant in machine learning and NLP</a></li>
<li><a href='http://www.52nlp.cn/recruiting-ph-d-students' rel='bookmark' title='recruiting Ph.D. students'>recruiting Ph.D. students</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-%e8%af%84%e8%bf%b0%e8%8a%82%e9%80%89' rel='bookmark' title='ACL-IJCNLP 2009 评述节选'>ACL-IJCNLP 2009 评述节选</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-common-abbreviations-acronyms' rel='bookmark' title='自然语言处理及计算语言学常见缩略语'>自然语言处理及计算语言学常见缩略语</a></li>
<li><a href='http://www.52nlp.cn/niutrans-%e4%b8%80%e5%a5%97%e5%bc%80%e6%ba%90%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b9%b3%e5%8f%b0' rel='bookmark' title='NiuTrans: 一套开源的统计机器翻译平台'>NiuTrans: 一套开源的统计机器翻译平台</a></li>
<li><a href='http://www.52nlp.cn/%e6%9d%a1%e4%bb%b6%e9%9a%8f%e6%9c%ba%e5%9c%ba%e6%96%87%e7%8c%ae%e9%98%85%e8%af%bb%e6%8c%87%e5%8d%97' rel='bookmark' title='条件随机场文献阅读指南'>条件随机场文献阅读指南</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-five-machine-translation' rel='bookmark' title='自然语言处理与计算语言学书籍汇总之五：机器翻译'>自然语言处理与计算语言学书籍汇总之五：机器翻译</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-one-foreign-book' rel='bookmark' title='自然语言处理与计算语言学书籍汇总之一：国外书籍'>自然语言处理与计算语言学书籍汇总之一：国外书籍</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e4%b8%80%e7%a7%8d%e5%9f%ba%e4%ba%8e%e7%94%9f%e8%af%ad%e6%96%99%e7%9a%84%e6%97%a0%e7%9b%91%e7%9d%a3%e7%9a%84%e8%af%ad%e6%b3%95%e8%a7%84%e5%88%99%e5%ad%a6%e4%b9%a0%e6%96%b9%e6%b3%95/feed</wfw:commentRss>
		<slash:comments>8</slash:comments>
		</item>
		<item>
		<title>追忆大师贾里尼克</title>
		<link>http://www.52nlp.cn/%e8%bf%bd%e5%bf%86%e5%a4%a7%e5%b8%88%e8%b4%be%e9%87%8c%e5%b0%bc%e5%85%8b</link>
		<comments>http://www.52nlp.cn/%e8%bf%bd%e5%bf%86%e5%a4%a7%e5%b8%88%e8%b4%be%e9%87%8c%e5%b0%bc%e5%85%8b#comments</comments>
		<pubDate>Tue, 21 Sep 2010 12:55:09 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[语音识别]]></category>
		<category><![CDATA[转载]]></category>
		<category><![CDATA[Fred Jelinek]]></category>
		<category><![CDATA[Google]]></category>
		<category><![CDATA[贾里尼克]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=3433</guid>
		<description><![CDATA[　　这是Google Research Blog上的一篇文章，英文原名“Remembering Fred Jelinek”。在Google Reader上读到的，是Google的这些研究员们对于贾里尼克老先生的一些追忆和缅怀，觉得写得很好，就转载到这里了。 Remembering Fred Jelinek Posted by Ciprian Chelba, Research Team It is with great sadness that we note the passing of Fred Jelinek, teacher and colleague to many of us here at Google. His seminal &#8230; <a href="http://www.52nlp.cn/%e8%bf%bd%e5%bf%86%e5%a4%a7%e5%b8%88%e8%b4%be%e9%87%8c%e5%b0%bc%e5%85%8b">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/the-magic-of-johns-hopkins-summer-workshop' rel='bookmark' title='神奇的约翰霍普金斯夏季研讨会'>神奇的约翰霍普金斯夏季研讨会</a></li>
<li><a href='http://www.52nlp.cn/from-google-research-blog-google-at-acl-2011' rel='bookmark' title='From Google Research Blog: Google at ACL 2011'>From Google Research Blog: Google at ACL 2011</a></li>
<li><a href='http://www.52nlp.cn/%e8%af%ad%e9%9f%b3%e8%af%86%e5%88%ab%e5%92%8c%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86%e5%a4%a7%e5%b8%88%e8%b4%be%e9%87%8c%e5%b0%bc%e5%85%8b%e5%8e%bb%e4%b8%96' rel='bookmark' title='语音识别和自然语言处理大师贾里尼克去世'>语音识别和自然语言处理大师贾里尼克去世</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%80%e7%bc%98%e8%b5%b7' rel='bookmark' title='Beautiful Data-统计语言模型的应用一：缘起'>Beautiful Data-统计语言模型的应用一：缘起</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-%e8%af%84%e8%bf%b0%e8%8a%82%e9%80%89' rel='bookmark' title='ACL-IJCNLP 2009 评述节选'>ACL-IJCNLP 2009 评述节选</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-and-speech-recognition-of-smt-classic-brown90' rel='bookmark' title='SMT经典再回首之Brown90:统计机器翻译与语音识别'>SMT经典再回首之Brown90:统计机器翻译与语音识别</a></li>
<li><a href='http://www.52nlp.cn/acl-2010-best-paper-awards' rel='bookmark' title='ACL 2010 Best Paper Awards'>ACL 2010 Best Paper Awards</a></li>
<li><a href='http://www.52nlp.cn/two-innovative-ideas-in-natural-language-processing-area' rel='bookmark' title='自然语言处理领域的两种创新观念'>自然语言处理领域的两种创新观念</a></li>
<li><a href='http://www.52nlp.cn/mapreduce%e4%b8%8e%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86' rel='bookmark' title='MapReduce与自然语言处理'>MapReduce与自然语言处理</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-machine-translation-faq' rel='bookmark' title='自然语言处理与机器翻译FAQ'>自然语言处理与机器翻译FAQ</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　这是Google Research Blog上的一篇文章，英文原名“Remembering Fred Jelinek”。在Google Reader上读到的，是Google的这些研究员们对于贾里尼克老先生的一些追忆和缅怀，觉得写得很好，就转载到这里了。<span id="more-3433"></span></p>
<p><strong><br />
Remembering Fred Jelinek</strong></p>
<p>Posted by Ciprian Chelba, Research Team</p>
<p>It is with great sadness that we note the passing of Fred Jelinek, teacher and colleague to many of us here at Google. His seminal contributions to statistical modeling of speech and language influenced not only us, but many more members of the research community.</p>
<p>Several of us at Google remember Fred:</p>
<p>Ciprian Chelba:<br />
Fred was my thesis advisor at CLSP. My ten years of work in the field after graduation led me to increasingly appreciate the values that Fred instilled by personal example: work on the hard problem because it simply cannot be avoided, bring fundamental and original contributions that steer clear of incrementalism, exercise your creativity despite the risks entailed, and pursue your ideas with determination.</p>
<p>I recently heard a comment from a colleague, “A natural born leader is someone you follow even if only out of curiosity.” I immediately thought of Fred. Working with him marked a turning point in my life, and his influential role will be remembered.</p>
<p>Bob Moore:<br />
I first met Fred Jelinek in 1984 at an IBM-sponsored workshop on natural-language processing. Fred&#8217;s talk was my first exposure to the application of statistical ideas to language, and about the only thing I understood was the basic idea of N-gram language modeling: estimate the probability of the next word in a sequence based on a small fixed number of immediately preceding words. At the time, I was so steeped in the tradition of linguistically-based formal grammars that I was sure Fred&#8217;s approach could not possibly be useful.</p>
<p>Starting about five years later, however, I began to interact with Fred often at speech and language technology meetings organized by DARPA, as well as events affiliated with the Association for Computational Linguistics. Gradually, I (along with much of the computational linguistics community) began to understand and appreciate the statistical approach to language technology that Fred and his colleagues were developing, to the point that it now dominates the field of computational linguistics, including my own research. The importance of Fred&#8217;s technical contributions and visionary leadership in bringing about this revolution in language technology cannot be overstated. The field is greatly diminished by his passing.</p>
<p>Fernando Pereira:<br />
I met Fred first at a DARPA-organized workshop where one of the main topics was how to put natural language processing research on a more empirical, data-driven path. Fred was leading the charge for the move, drawing from his successes in speech recognition. Although I had already started exploring those ideas, I was not fully convinced by Fred’s vision. Nevertheless, Fred’s program raised many interesting research questions, and I could not resist some of them. Working on search for speech recognition at AT&#038;T, I was part of the small team that invented the finite-state transducer representation of recognition models. I gave what I think was the first public talk on the approach at a workshop session that Fred chaired. It was Fred’s turn to be skeptical, and we had a spirited exchange in the discussion period. At the time, I was disappointed that I had failed to interest Fred in the work, but later I was delighted when Fred became a strong supporter of our work after a JHU Summer workshop where Michael Riley led the use of our software tools in successful experiments with a team of JHU researchers and students. Indeed, in hindsight, Fred was right to be skeptical before we had empirical validation for the approach, and his strong support when the results started coming in was thus much more meaningful and gratifying. Through these experiences and much more, I came to respect immensely Fred’s pioneer spirit, vision, and sharp mind. Many of my most successful projects benefited directly or indirectly from his ideas, his criticism, and his building of thriving institutions, from CLSP to links with the research team at Charles University in Prague. I saw Fred last at ACL in Uppsala. He was in great form, and we had a good discussion on funding for the summer workshops. I am very sad that he will not be with us to continue these conversations.</p>
<p>Shankar Kumar:<br />
Fred was my academic advisor at CLSP/JHU and I interacted with him throughout my Ph.D. program. I had the privilege of having him on my thesis committee. My very first exposure to research in speech and NLP was through an independent study that I did under him. A few years later, I was his teaching assistant for the speech recognition class. Fred&#8217;s energy and passion for research made a strong impression on me back then and continues to influence my work to this day. I remember Fred carefully writing up his ideas and sending them out as a starting point to our discussions. While I found this curiously amusing at the time, I now think this was his unique approach to ensure clarity of thought and to steer the discussion without distractions. Fred&#8217;s enthusiasm for learning new concepts was infectious! I attended several classes and guest lectures with him &#8211; graphical models, NLP, and many more. His insightful questions and his active participation in each one of these classes made them memorable for me. He epitomized what a life-long learner should be. I will always recall Fred&#8217;s advice on sharing credit generously. In his own words, “The contribution of a research paper does not get divided by the number of authors”. By his passing, we have lost a role model who dedicated his life to research and whose contributions will continue to impact and shape the field for years to come.</p>
<p>Michael Riley:<br />
I got to know Fred pretty well having attended two of the CLSP six-week summer workshops, working on a few joint grants, and visiting CLSP in between. If there is a ‘father of speech recognition’, its got to be Fred Jelinek &#8211; he led the IBM team that invented and popularized many of the key methods used today. His intellect, wide knowledge, and force of will served him well later as the leader of the JHU Center for Language and Speech Processing &#8211; a sort of academic hearth where countless speech/NLP researchers and students interacted over the years in seminars and workshops. I was impressed that at an age when many retired and after which most of his IBM colleagues had gone into (very lucrative) financial engineering, he remained a vigorous, leading academic. Fernando mentioned the initial skepticism he had for our work on weighted FSTs for ASR. Some years later though I heard that he praised the work to my lab director, Larry Rabiner, on a plane ride that likely helped my promotion shortly thereafter. And no discussion of Fred would be complete without a mention of his inimitable humor, delivered in that loud Czech-accented voice:</p>
<p>    Riley [at workshop planning meeting]: “Could they hold the summer workshop in some nicer place than Baltimore to help attract people?”<br />
    Fred: “Riley, we’ll hold it in Rome next year and get better people than you!”</p>
<p>    Seminar presenter: [fumbling with Windows configuration for minutes].<br />
    Fred [very loud]: “How long do we have to endure this high-tech torture?”</p>
<p>The website of The Johns Hopkins University’s Center for Language and Speech Processing links to Fred’s own descriptions of his <a href="http://www.clsp.jhu.edu/people/jelinek/promoce.html">life</a> and <a href="http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2009.35.4.35401">technical achievements</a>. </p>
<p>英文原文链接见：<br />
<a href="http://googleresearch.blogspot.com/2010/09/remembering-fred-jelinek.html">http://googleresearch.blogspot.com/2010/09/remembering-fred-jelinek.html</a></p>
<p>注：转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/追忆大师贾里尼克">http://www.52nlp.cn/追忆大师贾里尼克</a></p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/the-magic-of-johns-hopkins-summer-workshop' rel='bookmark' title='神奇的约翰霍普金斯夏季研讨会'>神奇的约翰霍普金斯夏季研讨会</a></li>
<li><a href='http://www.52nlp.cn/from-google-research-blog-google-at-acl-2011' rel='bookmark' title='From Google Research Blog: Google at ACL 2011'>From Google Research Blog: Google at ACL 2011</a></li>
<li><a href='http://www.52nlp.cn/%e8%af%ad%e9%9f%b3%e8%af%86%e5%88%ab%e5%92%8c%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86%e5%a4%a7%e5%b8%88%e8%b4%be%e9%87%8c%e5%b0%bc%e5%85%8b%e5%8e%bb%e4%b8%96' rel='bookmark' title='语音识别和自然语言处理大师贾里尼克去世'>语音识别和自然语言处理大师贾里尼克去世</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%80%e7%bc%98%e8%b5%b7' rel='bookmark' title='Beautiful Data-统计语言模型的应用一：缘起'>Beautiful Data-统计语言模型的应用一：缘起</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-%e8%af%84%e8%bf%b0%e8%8a%82%e9%80%89' rel='bookmark' title='ACL-IJCNLP 2009 评述节选'>ACL-IJCNLP 2009 评述节选</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-and-speech-recognition-of-smt-classic-brown90' rel='bookmark' title='SMT经典再回首之Brown90:统计机器翻译与语音识别'>SMT经典再回首之Brown90:统计机器翻译与语音识别</a></li>
<li><a href='http://www.52nlp.cn/acl-2010-best-paper-awards' rel='bookmark' title='ACL 2010 Best Paper Awards'>ACL 2010 Best Paper Awards</a></li>
<li><a href='http://www.52nlp.cn/two-innovative-ideas-in-natural-language-processing-area' rel='bookmark' title='自然语言处理领域的两种创新观念'>自然语言处理领域的两种创新观念</a></li>
<li><a href='http://www.52nlp.cn/mapreduce%e4%b8%8e%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86' rel='bookmark' title='MapReduce与自然语言处理'>MapReduce与自然语言处理</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-machine-translation-faq' rel='bookmark' title='自然语言处理与机器翻译FAQ'>自然语言处理与机器翻译FAQ</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e8%bf%bd%e5%bf%86%e5%a4%a7%e5%b8%88%e8%b4%be%e9%87%8c%e5%b0%bc%e5%85%8b/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
	</channel>
</rss>

