<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>我爱自然语言处理 &#187; 转载</title>
	<atom:link href="http://www.52nlp.cn/category/reprint/feed" rel="self" type="application/rss+xml" />
	<link>http://www.52nlp.cn</link>
	<description>I Love Natural Language Processing</description>
	<lastBuildDate>Wed, 21 Jul 2010 15:33:24 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.9.2</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>《自然语言处理的形式模型》导读</title>
		<link>http://www.52nlp.cn/%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86%e7%9a%84%e5%bd%a2%e5%bc%8f%e6%a8%a1%e5%9e%8b-%e5%af%bc%e8%af%bb</link>
		<comments>http://www.52nlp.cn/%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86%e7%9a%84%e5%bd%a2%e5%bc%8f%e6%a8%a1%e5%9e%8b-%e5%af%bc%e8%af%bb#comments</comments>
		<pubDate>Thu, 22 Apr 2010 16:11:40 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[转载]]></category>
		<category><![CDATA[冯志伟]]></category>
		<category><![CDATA[自然语言处理书籍]]></category>
		<category><![CDATA[自然语言处理的形式模型]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=3325</guid>
		<description><![CDATA[　　前几天在这里介绍过冯志伟老师的“自然语言处理的形式模型“，wibe同学第一时间在卓越购得此书，并且很快得写了“《自然语言处理的形式模型》导读“这篇书评。读了一下，感觉写得不错，就在这里转载了，方便有需求的读者作一些参考。
　　　　　　　　《自然语言处理的形式模型》导读
　　　　　　　　　　　作者：王增才(wibe)
　　　　　　　　　　　邮箱：wangzengcai@126.com
　　该书将自然语言处理的方法分为两种：理性主义（基于规则的方法）方法与经验主义（基于统计的方法）。该书对自然语言处理中的很多种形式模型进行了系统的介绍。基于规则的形式模型，介绍了短语结构语法，递归转移网络等等；基于统计的形式模型，介绍了Markov链，概率语法，Bayes公式，HMM等等。
　　该书介绍了很多种主流的形式模型，在一定程度上反映了国内外自然语言处理方面的成果，可以作为一本入门书或者工具书来使用，有助于我们大体把握自然语言处理发展动向的。
　　该书是手册性的综合概述书籍，有如下优点：
　　1.介绍了很多种规则和统计的形式模型。
　　2.简练的论述了形式模型的优缺点。
　　3.该书各章写作风格一致，内容协调，特别适合对自然语言处理感兴趣和刚入门的朋友们阅读。
　　缺点：
　　1.数学公式较多，文科背景的朋友们阅读和理解起来可能会有一些困难。
　　2.没有论述基于模糊数学的自然语言处理的形式模型。不知道是冯老师不熟悉这块，还是有意回避。据我了解，冯老师本人是擅长于基于统计的形式模型研究的。我国的学者伍铁平（代表作《模糊语言学》）与张乔老师（代表作《模糊语义学》）等等对模糊语言学颇有研究。
　　据我所了解，该书是国内第一本综述基于规则与统计的自然语言处理方法的书籍，是值得一读的。不推荐想深究某种具体算法的朋友阅读该书。深究算法，还是阅读原作者的论文比较好。
参考资料
1.《自然语言处理的形式模型》，冯志伟，中国科学技术大学出版社，2010年01月
转自作者新浪博客：http://blog.sina.com.cn/s/blog_633e67d10100i5pl.html
卓越亚马逊：自然语言处理的形式模型
注：转载请注明出处“我爱自然语言处理”：www.52nlp.cn
本文链接地址：http://www.52nlp.cn/自然语言处理的形式模型-导读










相关文章:冯志伟：自然语言处理的形式模型
自然语言处理中理性主义与经验主义的优缺点
ACL-IJCNLP 2009 评述节选
砖石，还是露水
立委随笔：机器学习和自然语言处理
ACL09 Full Paper各研究领域的录用情况
自然语言处理与计算语言学书籍汇总之五：机器翻译
自然语言处理与计算语言学书籍汇总之一：国外书籍
自然语言处理领域的两种创新观念
自然语言处理与机器翻译FAQ



相关文章:<ol><li><a href='http://www.52nlp.cn/%e5%86%af%e5%bf%97%e4%bc%9f-%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86%e7%9a%84%e5%bd%a2%e5%bc%8f%e6%a8%a1%e5%9e%8b' rel='bookmark' title='Permanent Link: 冯志伟：自然语言处理的形式模型'>冯志伟：自然语言处理的形式模型</a></li>
<li><a href='http://www.52nlp.cn/the-advantages-and-disadvantages-of-the-rationalism-and-empiricism-in-nlp' rel='bookmark' title='Permanent Link: 自然语言处理中理性主义与经验主义的优缺点'>自然语言处理中理性主义与经验主义的优缺点</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-%e8%af%84%e8%bf%b0%e8%8a%82%e9%80%89' rel='bookmark' title='Permanent Link: ACL-IJCNLP 2009 评述节选'>ACL-IJCNLP 2009 评述节选</a></li>
<li><a href='http://www.52nlp.cn/%e7%a0%96%e7%9f%b3-%e8%bf%98%e6%98%af%e9%9c%b2%e6%b0%b4' rel='bookmark' title='Permanent Link: 砖石，还是露水'>砖石，还是露水</a></li>
<li><a href='http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e9%9a%8f%e7%ac%94-%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0%e5%92%8c%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86' rel='bookmark' title='Permanent Link: 立委随笔：机器学习和自然语言处理'>立委随笔：机器学习和自然语言处理</a></li>
<li><a href='http://www.52nlp.cn/acl09-acceptance-rates-by-areas' rel='bookmark' title='Permanent Link: ACL09 Full Paper各研究领域的录用情况'>ACL09 Full Paper各研究领域的录用情况</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-five-machine-translation' rel='bookmark' title='Permanent Link: 自然语言处理与计算语言学书籍汇总之五：机器翻译'>自然语言处理与计算语言学书籍汇总之五：机器翻译</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-one-foreign-book' rel='bookmark' title='Permanent Link: 自然语言处理与计算语言学书籍汇总之一：国外书籍'>自然语言处理与计算语言学书籍汇总之一：国外书籍</a></li>
<li><a href='http://www.52nlp.cn/two-innovative-ideas-in-natural-language-processing-area' rel='bookmark' title='Permanent Link: 自然语言处理领域的两种创新观念'>自然语言处理领域的两种创新观念</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-machine-translation-faq' rel='bookmark' title='Permanent Link: 自然语言处理与机器翻译FAQ'>自然语言处理与机器翻译FAQ</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　前几天在这里介绍过冯志伟老师的“<a href="http://www.52nlp.cn/%E5%86%AF%E5%BF%97%E4%BC%9F-%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%E7%9A%84%E5%BD%A2%E5%BC%8F%E6%A8%A1%E5%9E%8B">自然语言处理的形式模型</a>“，wibe同学第一时间在卓越购得此书，并且很快得写了“<a href="http://blog.sina.com.cn/s/blog_633e67d10100i5pl.html"target=_blank>《自然语言处理的形式模型》导读</a>“这篇书评。读了一下，感觉写得不错，就在这里转载了，方便有需求的读者作一些参考。<span id="more-3325"></span></p>
<p>　　　　　　　　<strong>《自然语言处理的形式模型》导读</strong><br />
　　　　　　　　　　　作者：王增才(wibe)<br />
　　　　　　　　　　　邮箱：wangzengcai@126.com</p>
<p>　　该书将自然语言处理的方法分为两种：理性主义（基于规则的方法）方法与经验主义（基于统计的方法）。该书对自然语言处理中的很多种形式模型进行了系统的介绍。基于规则的形式模型，介绍了短语结构语法，递归转移网络等等；基于统计的形式模型，介绍了Markov链，概率语法，Bayes公式，HMM等等。</p>
<p>　　该书介绍了很多种主流的形式模型，在一定程度上反映了国内外自然语言处理方面的成果，可以作为一本入门书或者工具书来使用，有助于我们大体把握自然语言处理发展动向的。</p>
<p>　　该书是手册性的综合概述书籍，有如下优点：</p>
<p>　　1.介绍了很多种规则和统计的形式模型。</p>
<p>　　2.简练的论述了形式模型的优缺点。</p>
<p>　　3.该书各章写作风格一致，内容协调，特别适合对自然语言处理感兴趣和刚入门的朋友们阅读。</p>
<p>　　缺点：</p>
<p>　　1.数学公式较多，文科背景的朋友们阅读和理解起来可能会有一些困难。</p>
<p>　　2.没有论述基于模糊数学的自然语言处理的形式模型。不知道是冯老师不熟悉这块，还是有意回避。据我了解，冯老师本人是擅长于基于统计的形式模型研究的。我国的学者伍铁平（代表作《模糊语言学》）与张乔老师（代表作《模糊语义学》）等等对模糊语言学颇有研究。</p>
<p>　　据我所了解，该书是国内第一本综述基于规则与统计的自然语言处理方法的书籍，是值得一读的。不推荐想深究某种具体算法的朋友阅读该书。深究算法，还是阅读原作者的论文比较好。</p>
<p>参考资料</p>
<p>1.《自然语言处理的形式模型》，冯志伟，中国科学技术大学出版社，2010年01月</p>
<p>转自作者新浪博客：<a href="http://blog.sina.com.cn/s/blog_633e67d10100i5pl.html"target=_blank>http://blog.sina.com.cn/s/blog_633e67d10100i5pl.html</a></p>
<p>卓越亚马逊：<a href="http://www.amazon.cn/mn/searchApp?source=garypyang-23&#038;searchType=1&#038;keywords=自然语言处理的形式模型" title="自然语言处理的形式模型">自然语言处理的形式模型</a></p>
<p>注：转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/自然语言处理的形式模型-导读">http://www.52nlp.cn/自然语言处理的形式模型-导读</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/%e5%86%af%e5%bf%97%e4%bc%9f-%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86%e7%9a%84%e5%bd%a2%e5%bc%8f%e6%a8%a1%e5%9e%8b' rel='bookmark' title='Permanent Link: 冯志伟：自然语言处理的形式模型'>冯志伟：自然语言处理的形式模型</a></li>
<li><a href='http://www.52nlp.cn/the-advantages-and-disadvantages-of-the-rationalism-and-empiricism-in-nlp' rel='bookmark' title='Permanent Link: 自然语言处理中理性主义与经验主义的优缺点'>自然语言处理中理性主义与经验主义的优缺点</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-%e8%af%84%e8%bf%b0%e8%8a%82%e9%80%89' rel='bookmark' title='Permanent Link: ACL-IJCNLP 2009 评述节选'>ACL-IJCNLP 2009 评述节选</a></li>
<li><a href='http://www.52nlp.cn/%e7%a0%96%e7%9f%b3-%e8%bf%98%e6%98%af%e9%9c%b2%e6%b0%b4' rel='bookmark' title='Permanent Link: 砖石，还是露水'>砖石，还是露水</a></li>
<li><a href='http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e9%9a%8f%e7%ac%94-%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0%e5%92%8c%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86' rel='bookmark' title='Permanent Link: 立委随笔：机器学习和自然语言处理'>立委随笔：机器学习和自然语言处理</a></li>
<li><a href='http://www.52nlp.cn/acl09-acceptance-rates-by-areas' rel='bookmark' title='Permanent Link: ACL09 Full Paper各研究领域的录用情况'>ACL09 Full Paper各研究领域的录用情况</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-five-machine-translation' rel='bookmark' title='Permanent Link: 自然语言处理与计算语言学书籍汇总之五：机器翻译'>自然语言处理与计算语言学书籍汇总之五：机器翻译</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-one-foreign-book' rel='bookmark' title='Permanent Link: 自然语言处理与计算语言学书籍汇总之一：国外书籍'>自然语言处理与计算语言学书籍汇总之一：国外书籍</a></li>
<li><a href='http://www.52nlp.cn/two-innovative-ideas-in-natural-language-processing-area' rel='bookmark' title='Permanent Link: 自然语言处理领域的两种创新观念'>自然语言处理领域的两种创新观念</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-machine-translation-faq' rel='bookmark' title='Permanent Link: 自然语言处理与机器翻译FAQ'>自然语言处理与机器翻译FAQ</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86%e7%9a%84%e5%bd%a2%e5%bc%8f%e6%a8%a1%e5%9e%8b-%e5%af%bc%e8%af%bb/feed</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
		<item>
		<title>冯志伟：自然语言处理的形式模型</title>
		<link>http://www.52nlp.cn/%e5%86%af%e5%bf%97%e4%bc%9f-%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86%e7%9a%84%e5%bd%a2%e5%bc%8f%e6%a8%a1%e5%9e%8b</link>
		<comments>http://www.52nlp.cn/%e5%86%af%e5%bf%97%e4%bc%9f-%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86%e7%9a%84%e5%bd%a2%e5%bc%8f%e6%a8%a1%e5%9e%8b#comments</comments>
		<pubDate>Fri, 09 Apr 2010 12:34:39 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[计算语言学]]></category>
		<category><![CDATA[转载]]></category>
		<category><![CDATA[冯志伟]]></category>
		<category><![CDATA[自然语言处理书]]></category>
		<category><![CDATA[自然语言处理的形式模型]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=3260</guid>
		<description><![CDATA[　　《自然语言处理的形式模型》是冯志伟老师2010年出的一本新书，也是近期国内自然语言处理及计算语言学领域的一部新著，属于”中国科大校友文库”系列，我没有看过全书，以下摘自于卓越网的介绍。
内容简介
《自然语言处理的形式模型》对自然语言处理中的各种形式模型进行了系统的梳理，分别讨论了基于短语结构语法的形式模型、基于合一运算的形式模型、基于依存和配价的形式模型、基于格语法的形式模型、基于词汇主义的形式模型、语义自动处理的形式模型、语用自动处理的形式模型、隐马尔可夫模型、统计机器翻译的形式模型。《自然语言处理的形式模型》说理透彻、语言流畅、实例丰富、深入浅出，适合于从事自然语言处理教学和研究的科研人员、大学师生阅读，也可以作为人工智能、计算语言学等课程的教学参考。
基本信息
出版社：中国科学技术大学出版社
页码：638 页
出版日期：2010年01月
ISBN：9787312022531
条形码：9787312022531
版本：第1版
装帧：平装
开本：16
正文语种：中文
丛书名：当代科学技术基础理论与前沿问题研究丛书:中国科学技术大学校友文库
目录
总序
前言
第1章 自然语言处理的学科定位
1.1 从自然语言处理的过程来考察其学科定位
1.2 从自然语言处理的范围来考察其学科定位
1.3 从自然语言处理的历史来考察其学科定位
1.4 当前自然语言处理发展的几个特点
第 2章 语言计算研究的先驱
2.1 Markov链
2.2 Zipf定律
2.3 Shannon关于“熵”的研究
2.4 Bar-Hillel的范畴语法
2.5 Harris的语言串分析法
2.6 o.c.KysmrHHa的语言集合论模型
第 3章 基于短语结构语法的形式模型
3.1 语法的Chomsky层级
3.2 有限状态语法和它的局限性
3.3 短语结构语法
3.4 递归转移网络和扩充转移网络
3.5 自底向上分析和自顶向下分析
3.6 通用句法生成器和线图分析法
3.7 Earley算法
3.8 左角分析法
3.9 CYK算法
3.10 Tomita算法
3.11 管辖-约束理论与最简方案
3.12 Joshi的树邻接语法
3.13 汉字结构的形式描述
第4章 基于合一运算的形式模型
4.1 中文信息MMT模型
4.2 Kaplan的词汇功能语法
4.3 MartinKay的功能合一语法
4.4 Gazdar的广义短语结构语法
4.5 Shieber的PATR
4.6 Pollard的中心语驱动的短语结构语法
4.7 Pereira和Warren定子句语法
第 5章 基于依存和配价的形式模型
5.1 配价观念的起源
5.2 Tesni6re的依存语法
5.3 依存语法在自然语言处理中的应用
5.4 配价语法
5.5 配价语法在自然语言处理中的应用
第6章 基于格语法的形式模型
6.1 Fillmore的格语法
6.2 Fillmore的框架网络
第7章 基于词汇主义的形式模型
7.1 Gross的词汇语法
7.2 链语法
7.3 词汇语义学
7.4 知识本体
7.5 词网WordNet
7.6 知网HowNet
第8章 [...]


相关文章:<ol><li><a href='http://www.52nlp.cn/%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86%e7%9a%84%e5%bd%a2%e5%bc%8f%e6%a8%a1%e5%9e%8b-%e5%af%bc%e8%af%bb' rel='bookmark' title='Permanent Link: 《自然语言处理的形式模型》导读'>《自然语言处理的形式模型》导读</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-one-foreign-book' rel='bookmark' title='Permanent Link: 自然语言处理与计算语言学书籍汇总之一：国外书籍'>自然语言处理与计算语言学书籍汇总之一：国外书籍</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-five-machine-translation' rel='bookmark' title='Permanent Link: 自然语言处理与计算语言学书籍汇总之五：机器翻译'>自然语言处理与计算语言学书籍汇总之五：机器翻译</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-%e8%af%84%e8%bf%b0%e8%8a%82%e9%80%89' rel='bookmark' title='Permanent Link: ACL-IJCNLP 2009 评述节选'>ACL-IJCNLP 2009 评述节选</a></li>
<li><a href='http://www.52nlp.cn/acl09-acceptance-rates-by-areas' rel='bookmark' title='Permanent Link: ACL09 Full Paper各研究领域的录用情况'>ACL09 Full Paper各研究领域的录用情况</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-second-domestic-book' rel='bookmark' title='Permanent Link: 自然语言处理与计算语言学书籍汇总之二：国内书籍'>自然语言处理与计算语言学书籍汇总之二：国内书籍</a></li>
<li><a href='http://www.52nlp.cn/acl-anthology-computational-linguistics-digital-archive' rel='bookmark' title='Permanent Link: ACL Anthology——计算语言学的数字档案'>ACL Anthology——计算语言学的数字档案</a></li>
<li><a href='http://www.52nlp.cn/the-advantages-and-disadvantages-of-the-rationalism-and-empiricism-in-nlp' rel='bookmark' title='Permanent Link: 自然语言处理中理性主义与经验主义的优缺点'>自然语言处理中理性主义与经验主义的优缺点</a></li>
<li><a href='http://www.52nlp.cn/acl-wiki-encyclopedia-of-computational-linguistics' rel='bookmark' title='Permanent Link: ACL Wiki——计算语言学的百科全书'>ACL Wiki——计算语言学的百科全书</a></li>
<li><a href='http://www.52nlp.cn/coling-2010-list-of-accepted-papers-oral' rel='bookmark' title='Permanent Link: COLING 2010: List of Accepted Papers (Oral)'>COLING 2010: List of Accepted Papers (Oral)</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　《自然语言处理的形式模型》是冯志伟老师2010年出的一本新书，也是近期国内自然语言处理及计算语言学领域的一部新著，属于”中国科大校友文库”系列，我没有看过全书，以下摘自于卓越网的介绍。<span id="more-3260"></span></p>
<p><strong>内容简介</strong></p>
<p>《自然语言处理的形式模型》对自然语言处理中的各种形式模型进行了系统的梳理，分别讨论了基于短语结构语法的形式模型、基于合一运算的形式模型、基于依存和配价的形式模型、基于格语法的形式模型、基于词汇主义的形式模型、语义自动处理的形式模型、语用自动处理的形式模型、隐马尔可夫模型、统计机器翻译的形式模型。《自然语言处理的形式模型》说理透彻、语言流畅、实例丰富、深入浅出，适合于从事自然语言处理教学和研究的科研人员、大学师生阅读，也可以作为人工智能、计算语言学等课程的教学参考。</p>
<p><strong>基本信息</strong></p>
<p>出版社：中国科学技术大学出版社<br />
页码：638 页<br />
出版日期：2010年01月<br />
ISBN：9787312022531<br />
条形码：9787312022531<br />
版本：第1版<br />
装帧：平装<br />
开本：16<br />
正文语种：中文<br />
丛书名：当代科学技术基础理论与前沿问题研究丛书:中国科学技术大学校友文库</p>
<p><strong>目录</strong></p>
<p>总序<br />
前言<br />
第1章 自然语言处理的学科定位<br />
1.1 从自然语言处理的过程来考察其学科定位<br />
1.2 从自然语言处理的范围来考察其学科定位<br />
1.3 从自然语言处理的历史来考察其学科定位<br />
1.4 当前自然语言处理发展的几个特点</p>
<p>第 2章 语言计算研究的先驱<br />
2.1 Markov链<br />
2.2 Zipf定律<br />
2.3 Shannon关于“熵”的研究<br />
2.4 Bar-Hillel的范畴语法<br />
2.5 Harris的语言串分析法<br />
2.6 o.c.KysmrHHa的语言集合论模型</p>
<p>第 3章 基于短语结构语法的形式模型<br />
3.1 语法的Chomsky层级<br />
3.2 有限状态语法和它的局限性<br />
3.3 短语结构语法<br />
3.4 递归转移网络和扩充转移网络<br />
3.5 自底向上分析和自顶向下分析<br />
3.6 通用句法生成器和线图分析法<br />
3.7 Earley算法<br />
3.8 左角分析法<br />
3.9 CYK算法<br />
3.10 Tomita算法<br />
3.11 管辖-约束理论与最简方案<br />
3.12 Joshi的树邻接语法<br />
3.13 汉字结构的形式描述</p>
<p>第4章 基于合一运算的形式模型<br />
4.1 中文信息MMT模型<br />
4.2 Kaplan的词汇功能语法<br />
4.3 MartinKay的功能合一语法<br />
4.4 Gazdar的广义短语结构语法<br />
4.5 Shieber的PATR<br />
4.6 Pollard的中心语驱动的短语结构语法<br />
4.7 Pereira和Warren定子句语法</p>
<p>第 5章 基于依存和配价的形式模型<br />
5.1 配价观念的起源<br />
5.2 Tesni6re的依存语法<br />
5.3 依存语法在自然语言处理中的应用<br />
5.4 配价语法<br />
5.5 配价语法在自然语言处理中的应用</p>
<p>第6章 基于格语法的形式模型<br />
6.1 Fillmore的格语法<br />
6.2 Fillmore的框架网络</p>
<p>第7章 基于词汇主义的形式模型<br />
7.1 Gross的词汇语法<br />
7.2 链语法<br />
7.3 词汇语义学<br />
7.4 知识本体<br />
7.5 词网WordNet<br />
7.6 知网HowNet</p>
<p>第8章 语义自动处理的形式模型<br />
8.1 义素分析法<br />
8.2 语义场<br />
8.3 语义网络<br />
8.4 Montague的蒙塔鸠语法<br />
8.5 Wilks的优选语义学<br />
8.6 Schank的概念依存理论<br />
8.7 Mel’chuk的意义㈢文本理论<br />
8.8 词义排歧方法</p>
<p>第9章 系统功能语法<br />
9.1 系统功能语法的基本概念<br />
9.2 系统功能语法在自然语言处理中的应用</p>
<p>第10章 语用自动处理的形式模型<br />
10.1 Mann和Thompson的修辞结构理论<br />
10.2 文本连贯中的常识推理技术</p>
<p>第11章 概率语法<br />
11.1 概率上下文无关语法与句子的歧义<br />
11.2 概率上下文无关语法的基本原理<br />
11.3 概率上下文无关语法的三个假设<br />
11.4 概率词汇化上下文无关语法</p>
<p>第12章 Bayes公式与动态规划算法<br />
12.1 拼写错误的检查与更正<br />
12.2 Bayes公式与噪声信道模型<br />
12.3 最小编辑距离算法<br />
12.4 发音问题研究中的Bayes方法<br />
12.5 发音变异的决策树模型<br />
12.6 加权自动机<br />
12.7 向前算法<br />
12.8 Viterbi算法<br />
本章附录</p>
<p>第13章 N元语法和数据平滑<br />
13.1 N元语法<br />
13.2 数据平滑</p>
<p>第14章 隐马尔可夫模型（HMM）<br />
14.1 HMM模型概述<br />
14.2 HMM模型在语音识别中的应用</p>
<p>第 15章 统计机器翻译中的形式模型<br />
15.1 机器翻译与噪声信道模型<br />
15.2 最大熵模型<br />
15.3 基于平行概率语法的形式模型<br />
15.4 基于短语的统计机器翻译<br />
15.5 基于句法的统计机器翻译</p>
<p>第16章 自然语言处理系统的评测<br />
16.1 评测的一般原则和方法<br />
16.2 语音合成和文语转换系统的评测<br />
16.3 机器翻译系统的评测<br />
16.4 语料库系统的评测<br />
16.5 国外自然语言处理系统的评测</p>
<p>第17章 自然语言处理中的理性主义与经验主义<br />
17.1 哲学中的理性主义和经验主义<br />
17.2 自然语言处理中理性主义和经验主义的消长<br />
17.3 理性主义和经验主义的利弊得失<br />
17.4 探索理性主义方法和经验主义方法结合的途径</p>
<p>卓越亚马逊：<a href="http://www.amazon.cn/mn/searchApp?source=garypyang-23&#038;searchType=1&#038;keywords=自然语言处理的形式模型" title="自然语言处理的形式模型">自然语言处理的形式模型</a></p>
<p>注：转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/冯志伟-自然语言处理的形式模型">http://www.52nlp.cn/冯志伟-自然语言处理的形式模型</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86%e7%9a%84%e5%bd%a2%e5%bc%8f%e6%a8%a1%e5%9e%8b-%e5%af%bc%e8%af%bb' rel='bookmark' title='Permanent Link: 《自然语言处理的形式模型》导读'>《自然语言处理的形式模型》导读</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-one-foreign-book' rel='bookmark' title='Permanent Link: 自然语言处理与计算语言学书籍汇总之一：国外书籍'>自然语言处理与计算语言学书籍汇总之一：国外书籍</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-five-machine-translation' rel='bookmark' title='Permanent Link: 自然语言处理与计算语言学书籍汇总之五：机器翻译'>自然语言处理与计算语言学书籍汇总之五：机器翻译</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-%e8%af%84%e8%bf%b0%e8%8a%82%e9%80%89' rel='bookmark' title='Permanent Link: ACL-IJCNLP 2009 评述节选'>ACL-IJCNLP 2009 评述节选</a></li>
<li><a href='http://www.52nlp.cn/acl09-acceptance-rates-by-areas' rel='bookmark' title='Permanent Link: ACL09 Full Paper各研究领域的录用情况'>ACL09 Full Paper各研究领域的录用情况</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-second-domestic-book' rel='bookmark' title='Permanent Link: 自然语言处理与计算语言学书籍汇总之二：国内书籍'>自然语言处理与计算语言学书籍汇总之二：国内书籍</a></li>
<li><a href='http://www.52nlp.cn/acl-anthology-computational-linguistics-digital-archive' rel='bookmark' title='Permanent Link: ACL Anthology——计算语言学的数字档案'>ACL Anthology——计算语言学的数字档案</a></li>
<li><a href='http://www.52nlp.cn/the-advantages-and-disadvantages-of-the-rationalism-and-empiricism-in-nlp' rel='bookmark' title='Permanent Link: 自然语言处理中理性主义与经验主义的优缺点'>自然语言处理中理性主义与经验主义的优缺点</a></li>
<li><a href='http://www.52nlp.cn/acl-wiki-encyclopedia-of-computational-linguistics' rel='bookmark' title='Permanent Link: ACL Wiki——计算语言学的百科全书'>ACL Wiki——计算语言学的百科全书</a></li>
<li><a href='http://www.52nlp.cn/coling-2010-list-of-accepted-papers-oral' rel='bookmark' title='Permanent Link: COLING 2010: List of Accepted Papers (Oral)'>COLING 2010: List of Accepted Papers (Oral)</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e5%86%af%e5%bf%97%e4%bc%9f-%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86%e7%9a%84%e5%bd%a2%e5%bc%8f%e6%a8%a1%e5%9e%8b/feed</wfw:commentRss>
		<slash:comments>11</slash:comments>
		</item>
		<item>
		<title>第十二届机器翻译峰会和NIST2009机器翻译评测研讨会简介2</title>
		<link>http://www.52nlp.cn/%e7%ac%ac%e5%8d%81%e4%ba%8c%e5%b1%8a%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b3%b0%e4%bc%9a%e5%92%8cnist2009%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e8%af%84%e6%b5%8b%e7%ae%80%e4%bb%8b2</link>
		<comments>http://www.52nlp.cn/%e7%ac%ac%e5%8d%81%e4%ba%8c%e5%b1%8a%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b3%b0%e4%bc%9a%e5%92%8cnist2009%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e8%af%84%e6%b5%8b%e7%ae%80%e4%bb%8b2#comments</comments>
		<pubDate>Tue, 23 Mar 2010 16:25:10 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[机器翻译]]></category>
		<category><![CDATA[转载]]></category>
		<category><![CDATA[bleu]]></category>
		<category><![CDATA[NIST]]></category>
		<category><![CDATA[中文信息学报]]></category>
		<category><![CDATA[刘群]]></category>
		<category><![CDATA[机器翻译峰会]]></category>
		<category><![CDATA[米海涛]]></category>
		<category><![CDATA[计算所]]></category>
		<category><![CDATA[赵红梅]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=3201</guid>
		<description><![CDATA[　　继续转载《中文信息学报》09年第6期中科院计算所米海涛,赵红梅,刘群老师的《第十二届机器翻译峰会和NIST2009 机器翻译评测研讨会简介》，这一部分主要介绍的是NIST2009机器翻译评测研讨会。
　　第十二届机器翻译峰会和NIST2009 机器翻译评测研讨会简介
　　　　　　　　　　　作者：米海涛,赵红梅,刘群
NIST2009机器翻译评测研讨会:
　　NIST机器翻译评测是国际上最权威的机器翻译评测,它于2002 年由美国TIDES 项目资助设立,大致每年举行一次。NIST 评测为机器翻译相关研究提供了公共的测试基准,为研究机构提供了公平竞争的舞台与充分交流的机会,极大地推动了机器翻译相关技术的发展。
　　与MT Summit 不同,NIST 机器翻译评测研讨会由于讨论内容与NIST 评测密切相关,因此讨论的问题非常具体和集中,参加会议的人关心的问题和讨论的话题也比较一致,深入具体的技术交流让参会者感觉收获颇丰。
　　在今年NIST机器翻译评测中, 总共吸引了36 家单位,41 支队伍(其中包括多家机构的联合) ,主要设置了汉语到英语(Chinese-to-English) 、阿拉伯语到英语(Arabic-to-English) 和乌尔都语到英语(Urdu-to-English ) 三个语言对、训练语料受限(Const rained) 与不受限(Unconst rained) 两种条件的项目评测。今年的参赛单位包括BBN Technologies、USC/ ISI、LW、RWTH、IBM、SRI 等著名研究机构或大学,稍显遗憾的是Google 与Microsof t 两大巨头没有参加本次角逐。在参赛队伍中,来自中国大陆的共有7 家单位,分别是: 中国科学院计算技术研究所(CAS2ICT) 、中国科学院自动化研究所(CAS2IA ) 、富士通研究开发中心有限公司(FRDC) 、哈尔滨工业大学( HIT) 、北京航空航天大学(BUAA) 、南京大学(NJ U) 和中国电子信息产业发展研究院(CCID) ,这也是国内研究机构参加此项评测单位最多的一次。
　　自从2008 年开始,NIST 在每个翻译语言对上开始区分Current Test 与Progress Test 。Current Test 每次评测前都会制作一份测试数据,评测后会公布参考答案以供参赛单位对自己的系统进行分析;而Progress Test 只做一次测试数据,这份数据每年都要使用,并且要求参赛单位不得查看、分析该数据的测试集,每年评测结束后也不公布参考答案。设置此项测试的目的在于: 通过每年翻译同一个测试集,可以方便参赛单位进行纵向对比,更好地了解机器翻译性能是否提高以及考察提高或下降的原因。
　　另外,今年NIST 评测的一个新特点是区分了单系统与系统融合,相应地加入了单系统评测与系统融合评测。而系统融合项目又进一步分为正式系统融合( Formal System Combination) [...]


相关文章:<ol><li><a href='http://www.52nlp.cn/%e7%ac%ac%e5%8d%81%e4%ba%8c%e5%b1%8a%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b3%b0%e4%bc%9a%e5%92%8cnist2009%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e8%af%84%e6%b5%8b%e7%ae%80%e4%bb%8b1' rel='bookmark' title='Permanent Link: 第十二届机器翻译峰会和NIST2009机器翻译评测研讨会简介1'>第十二届机器翻译峰会和NIST2009机器翻译评测研讨会简介1</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-%e8%af%84%e8%bf%b0%e8%8a%82%e9%80%89' rel='bookmark' title='Permanent Link: ACL-IJCNLP 2009 评述节选'>ACL-IJCNLP 2009 评述节选</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-heroe-franz-josef-och' rel='bookmark' title='Permanent Link: 统计机器翻译英雄谱一：Franz Josef Och'>统计机器翻译英雄谱一：Franz Josef Och</a></li>
<li><a href='http://www.52nlp.cn/%e5%ae%89%e8%a3%85srilm%e7%9a%84%e4%b8%80%e7%82%b9%e6%96%b0%e5%8f%98%e5%8c%96' rel='bookmark' title='Permanent Link: 安装Srilm的一点新变化'>安装Srilm的一点新变化</a></li>
<li><a href='http://www.52nlp.cn/european-parliament-proceedings-parallel-corpus-introduce' rel='bookmark' title='Permanent Link: 欧洲议会平行语料库介绍'>欧洲议会平行语料库介绍</a></li>
<li><a href='http://www.52nlp.cn/%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%a4%9a%e4%b8%80%e7%82%b9%e5%ae%bd%e5%ae%b9' rel='bookmark' title='Permanent Link: 机器翻译：多一点宽容'>机器翻译：多一点宽容</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-five-machine-translation' rel='bookmark' title='Permanent Link: 自然语言处理与计算语言学书籍汇总之五：机器翻译'>自然语言处理与计算语言学书籍汇总之五：机器翻译</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-machine-translation-faq' rel='bookmark' title='Permanent Link: 自然语言处理与机器翻译FAQ'>自然语言处理与机器翻译FAQ</a></li>
<li><a href='http://www.52nlp.cn/ubuntu-moses-platform-build-process-record' rel='bookmark' title='Permanent Link: Ubuntu8.10下moses测试平台搭建全记录'>Ubuntu8.10下moses测试平台搭建全记录</a></li>
<li><a href='http://www.52nlp.cn/moses-introduction' rel='bookmark' title='Permanent Link: Moses相关介绍'>Moses相关介绍</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　继续转载《中文信息学报》09年第6期中科院计算所米海涛,赵红梅,刘群老师的《第十二届机器翻译峰会和NIST2009 机器翻译评测研讨会简介》，这一部分主要介绍的是NIST2009机器翻译评测研讨会。<span id="more-3201"></span></p>
<p>　　<strong>第十二届机器翻译峰会和NIST2009 机器翻译评测研讨会简介</strong><br />
　　　　　　　　　　　作者：米海涛,赵红梅,刘群</p>
<p><strong>NIST2009机器翻译评测研讨会:</strong><br />
　　NIST机器翻译评测是国际上最权威的机器翻译评测,它于2002 年由美国TIDES 项目资助设立,大致每年举行一次。NIST 评测为机器翻译相关研究提供了公共的测试基准,为研究机构提供了公平竞争的舞台与充分交流的机会,极大地推动了机器翻译相关技术的发展。<br />
　　与MT Summit 不同,NIST 机器翻译评测研讨会由于讨论内容与NIST 评测密切相关,因此讨论的问题非常具体和集中,参加会议的人关心的问题和讨论的话题也比较一致,深入具体的技术交流让参会者感觉收获颇丰。<br />
　　在今年NIST机器翻译评测中, 总共吸引了36 家单位,41 支队伍(其中包括多家机构的联合) ,主要设置了汉语到英语(Chinese-to-English) 、阿拉伯语到英语(Arabic-to-English) 和乌尔都语到英语(Urdu-to-English ) 三个语言对、训练语料受限(Const rained) 与不受限(Unconst rained) 两种条件的项目评测。今年的参赛单位包括BBN Technologies、USC/ ISI、LW、RWTH、IBM、SRI 等著名研究机构或大学,稍显遗憾的是Google 与Microsof t 两大巨头没有参加本次角逐。在参赛队伍中,来自中国大陆的共有7 家单位,分别是: 中国科学院计算技术研究所(CAS2ICT) 、中国科学院自动化研究所(CAS2IA ) 、富士通研究开发中心有限公司(FRDC) 、哈尔滨工业大学( HIT) 、北京航空航天大学(BUAA) 、南京大学(NJ U) 和中国电子信息产业发展研究院(CCID) ,这也是国内研究机构参加此项评测单位最多的一次。<br />
　　自从2008 年开始,NIST 在每个翻译语言对上开始区分Current Test 与Progress Test 。Current Test 每次评测前都会制作一份测试数据,评测后会公布参考答案以供参赛单位对自己的系统进行分析;而Progress Test 只做一次测试数据,这份数据每年都要使用,并且要求参赛单位不得查看、分析该数据的测试集,每年评测结束后也不公布参考答案。设置此项测试的目的在于: 通过每年翻译同一个测试集,可以方便参赛单位进行纵向对比,更好地了解机器翻译性能是否提高以及考察提高或下降的原因。<br />
　　另外,今年NIST 评测的一个新特点是区分了单系统与系统融合,相应地加入了单系统评测与系统融合评测。而系统融合项目又进一步分为正式系统融合( Formal System Combination) 与非正式系统融合( Informal System Combination) ,其中,正式系统融合任务以参赛队自己的单系统翻译结果作为输入,而非正式系统融合任务以所有参赛系统中自愿提供的单系统翻译结果作为输入。<br />
　　&#8230;<br />
　　此次汉英(C2E) 翻译只有Progress Test 项目,没有Current Test 项目。汉英单系统评测的桂冠被USC-ISI/LW联合队以BLEU 值0. 3225 的成绩摘得,第二名是BBN 公司,成绩为BLEU值0.3153。富士通研究开发中心有限公司与中国科学院计算技术研究所分列第6和第7名。另外,在显著性测试中,分列第3到第7的5家单位的新闻(Newswire) 部分差异并不显著,可以认为是第二集团,与第一集团的差距还是很明显的。从翻译模型上看,基于句法的系统已经完全超越了基于短语的系统,USC/ISI的串到短语树、BBN 的串到依存树系统高高占据了前两位,超越了RWTH 与NRC 的基于短语的系统。<br />
　　在汉英Progress Test 的正式系统融合评测中,USC/ISI-LW 的系统融合结果相对于他们排名第一的单系统取得了0.8个BLEU 值的提升,成绩为BLEU值0. 3303 ,在参加正式系统融合评测的5个单位中继续排名第一。而计算技术研究所的系统融合结果相对于其单系统提升了近2.9个BLEU值,成为所有参赛队伍中通过系统融合技术提升幅度最大的一家,在参加正式系统融合项目的5 个单位中排名第二,计算技术研究所也因此应邀在NIST研讨会上做关于系统融合的正式报告。米海涛博士代表计算技术研究所在报告中详细介绍了在评测中所采用的技术,这也是NIST 首次邀请中国大陆的研究单位在研讨会上作正式报告。<br />
　　汉英Progress Test 总成绩的排名中,计算技术研究所取得了第三名的好成绩,这是历年来国内研究机构在该项评测中所取得的最好成绩。<br />
　　阿拉伯语到英语(A2E) 翻译Current Test 中, 剑桥大学以总成绩BLEU 值0.4834 获得A2E 第一;乌尔都语到英语( U2E) 的Current Test 中, USC-ISI/ LW 又以总成绩BLEU 值0. 312 0 获得U2E 的冠军。<br />
　　从上述测试的BL EU 值绝对分数可以看出,目前汉语到英语机器翻译的水平要比阿拉伯语到英语低得多,这反映汉英翻译确实难度更大,也更值得我们进行深入的研究。乌尔都语到英语评测由于训练语料库规模较小,其结果不具备可比性。<br />
　　NIST2009 机器翻译评测研讨会为期两天。第一天,首先由NIST 机器翻译评测组织方对评测概况、研讨会安排进行了介绍。其中有一个环节是:所有参评单位各用30 秒钟时间非常简单地讲一下本单位在评测中效果最好的技术和没有效果的技术,密集的报告让大家印象非常深刻。随后便开始进行单系统报告, 报告单位包括CUED、LIUM/SYSTRAN、App Tek 、UMD、BBN、SYSTRAN 等。下午1 点到3 点还安排了张贴报告,共有11 家单位对自己的NIST 评测系统做作了张贴报告,这些单位包括: AFRL ,CAS-ICT ,CMU-StatXfer ,Columbia ,DCU , DFKI , FB K, FRDC , RWTH , TelAviv, UMD。张贴报告的形式给了大家充分交流的机会,报告与茶歇同时举行使得讨论的气氛更加融洽。<br />
　　研讨会的第二天主要进行了系统融合的报告,报告单位包括IBM、CAS-ICT、ISI/LW、CMU 、BBN、SRI、RWTH 和J HU 等。会议的最后一项是对明年NIST 机器翻译评测计划的讨论,由全体与会人员参加, 分别针对明年的翻译语言对(Language pairs) 、数据(Data) 、任务( Tasks) 、可预测评价( Predictive evaluation) 、人工评测( Human assessments) 以及系统融合评测项目的N-best 提交格式(N-best list s for system combination) 等问题展开了激烈的讨论。大家各抒己见、踊跃发表自己的意见与看法,尽管在有些观点上不能达成一致,但<br />
相信这些意见与看法一定会对下一年NIST 机器翻译评测的成功举行起着巨大的借鉴意义。NIST 主办方最后还宣布了明年NIST 机器翻译评测的大致时间,初步定于2010 年10 月份左右,而随后的研讨会初定于2011 年1 月份左右。<br />
　　有关NIST2009 机器翻译评测的详情见:<br />
　　http://www.itl.nist.gov/iad/mig//tests/mt/2009/</p>
<p>注：转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/第十二届机器翻译峰会和nist2009机器翻译评测简介2">http://www.52nlp.cn/第十二届机器翻译峰会和nist2009机器翻译评测简介2</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/%e7%ac%ac%e5%8d%81%e4%ba%8c%e5%b1%8a%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b3%b0%e4%bc%9a%e5%92%8cnist2009%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e8%af%84%e6%b5%8b%e7%ae%80%e4%bb%8b1' rel='bookmark' title='Permanent Link: 第十二届机器翻译峰会和NIST2009机器翻译评测研讨会简介1'>第十二届机器翻译峰会和NIST2009机器翻译评测研讨会简介1</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-%e8%af%84%e8%bf%b0%e8%8a%82%e9%80%89' rel='bookmark' title='Permanent Link: ACL-IJCNLP 2009 评述节选'>ACL-IJCNLP 2009 评述节选</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-heroe-franz-josef-och' rel='bookmark' title='Permanent Link: 统计机器翻译英雄谱一：Franz Josef Och'>统计机器翻译英雄谱一：Franz Josef Och</a></li>
<li><a href='http://www.52nlp.cn/%e5%ae%89%e8%a3%85srilm%e7%9a%84%e4%b8%80%e7%82%b9%e6%96%b0%e5%8f%98%e5%8c%96' rel='bookmark' title='Permanent Link: 安装Srilm的一点新变化'>安装Srilm的一点新变化</a></li>
<li><a href='http://www.52nlp.cn/european-parliament-proceedings-parallel-corpus-introduce' rel='bookmark' title='Permanent Link: 欧洲议会平行语料库介绍'>欧洲议会平行语料库介绍</a></li>
<li><a href='http://www.52nlp.cn/%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%a4%9a%e4%b8%80%e7%82%b9%e5%ae%bd%e5%ae%b9' rel='bookmark' title='Permanent Link: 机器翻译：多一点宽容'>机器翻译：多一点宽容</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-five-machine-translation' rel='bookmark' title='Permanent Link: 自然语言处理与计算语言学书籍汇总之五：机器翻译'>自然语言处理与计算语言学书籍汇总之五：机器翻译</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-machine-translation-faq' rel='bookmark' title='Permanent Link: 自然语言处理与机器翻译FAQ'>自然语言处理与机器翻译FAQ</a></li>
<li><a href='http://www.52nlp.cn/ubuntu-moses-platform-build-process-record' rel='bookmark' title='Permanent Link: Ubuntu8.10下moses测试平台搭建全记录'>Ubuntu8.10下moses测试平台搭建全记录</a></li>
<li><a href='http://www.52nlp.cn/moses-introduction' rel='bookmark' title='Permanent Link: Moses相关介绍'>Moses相关介绍</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e7%ac%ac%e5%8d%81%e4%ba%8c%e5%b1%8a%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b3%b0%e4%bc%9a%e5%92%8cnist2009%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e8%af%84%e6%b5%8b%e7%ae%80%e4%bb%8b2/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>第十二届机器翻译峰会和NIST2009机器翻译评测研讨会简介1</title>
		<link>http://www.52nlp.cn/%e7%ac%ac%e5%8d%81%e4%ba%8c%e5%b1%8a%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b3%b0%e4%bc%9a%e5%92%8cnist2009%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e8%af%84%e6%b5%8b%e7%ae%80%e4%bb%8b1</link>
		<comments>http://www.52nlp.cn/%e7%ac%ac%e5%8d%81%e4%ba%8c%e5%b1%8a%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b3%b0%e4%bc%9a%e5%92%8cnist2009%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e8%af%84%e6%b5%8b%e7%ae%80%e4%bb%8b1#comments</comments>
		<pubDate>Sat, 20 Mar 2010 15:34:07 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[机器翻译]]></category>
		<category><![CDATA[转载]]></category>
		<category><![CDATA[NIST]]></category>
		<category><![CDATA[中文信息学报]]></category>
		<category><![CDATA[刘群]]></category>
		<category><![CDATA[机器翻译峰会]]></category>
		<category><![CDATA[米海涛]]></category>
		<category><![CDATA[赵红梅]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=3175</guid>
		<description><![CDATA[　　本文选自《中文信息学报》09年第6期中科院计算所米海涛,赵红梅,刘群老师的《第十二届机器翻译峰会和NIST2009 机器翻译评测研讨会简介》，将分为两部分分别介绍第十二届机器翻译峰会和NIST2009机器翻译评测研讨会。
　　第十二届机器翻译峰会和NIST2009 机器翻译评测研讨会简介
　　　　　　　　　　　作者：米海涛,赵红梅,刘群
　今年第十二届机器翻译峰会(MT Summit XII)和NIST2009 机器翻译评测研讨会(NIST Open MT 2009 Evaluation Workshop) 这两个会议在风景优美的加拿大首府渥太华举行,时间分别为: 8 月26 日到30 日、8 月31 日到9 月1 日。作为参会者,我们给大家简要介绍一下这两个会议的大致情况,希望与读者分享我们的体会和感受。

第十二届机器翻译峰会:
　　MT Summit (机器翻译峰会) 在机器翻译领域有较大的影响力,它历史较长,每两年举行一次,今年已经是第十二届。该会议不仅关注机器翻译研究,而且也关注机器翻译的应用,因此每次参会者中除了有机器翻译研究人员外,还有相当多的政府部门与商业机构的人员。机器翻译峰会分别由亚洲机器翻译协会(AAMT , the Asia2Pacific Association for Machine Translation ) 、欧洲机器翻译协会( EAMT) 、美洲机器翻译协会(AMTA ,the Association for Machine Translation in the Americas) 轮流举办。今年的MT Summit XII 会议由国际机器翻译协会( IAMT ,the International Association for Machine Translation ) 及美洲机器翻译协会(AMTA [...]


相关文章:<ol><li><a href='http://www.52nlp.cn/%e7%ac%ac%e5%8d%81%e4%ba%8c%e5%b1%8a%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b3%b0%e4%bc%9a%e5%92%8cnist2009%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e8%af%84%e6%b5%8b%e7%ae%80%e4%bb%8b2' rel='bookmark' title='Permanent Link: 第十二届机器翻译峰会和NIST2009机器翻译评测研讨会简介2'>第十二届机器翻译峰会和NIST2009机器翻译评测研讨会简介2</a></li>
<li><a href='http://www.52nlp.cn/top-11-reasons-to-come-to-the-mt-summit' rel='bookmark' title='Permanent Link: 参加机器翻译峰会的十一大理由'>参加机器翻译峰会的十一大理由</a></li>
<li><a href='http://www.52nlp.cn/machine-translation-summit-xii-follow-up' rel='bookmark' title='Permanent Link: 第十二届机器翻译峰会后续'>第十二届机器翻译峰会后续</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-%e8%af%84%e8%bf%b0%e8%8a%82%e9%80%89' rel='bookmark' title='Permanent Link: ACL-IJCNLP 2009 评述节选'>ACL-IJCNLP 2009 评述节选</a></li>
<li><a href='http://www.52nlp.cn/cwmt2009-follow-up' rel='bookmark' title='Permanent Link: 第五届全国机器翻译研讨会后续'>第五届全国机器翻译研讨会后续</a></li>
<li><a href='http://www.52nlp.cn/euromatrix-and-spirit-of-openness' rel='bookmark' title='Permanent Link: EuroMatrix与开放精神'>EuroMatrix与开放精神</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-five-machine-translation' rel='bookmark' title='Permanent Link: 自然语言处理与计算语言学书籍汇总之五：机器翻译'>自然语言处理与计算语言学书籍汇总之五：机器翻译</a></li>
<li><a href='http://www.52nlp.cn/the-eight-major-challenges-of-machine-translation' rel='bookmark' title='Permanent Link: 机器翻译的八大挑战'>机器翻译的八大挑战</a></li>
<li><a href='http://www.52nlp.cn/machine-translation-archive' rel='bookmark' title='Permanent Link: 机器翻译档案计划'>机器翻译档案计划</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-heroe-franz-josef-och' rel='bookmark' title='Permanent Link: 统计机器翻译英雄谱一：Franz Josef Och'>统计机器翻译英雄谱一：Franz Josef Och</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　本文选自《中文信息学报》09年第6期中科院计算所米海涛,赵红梅,刘群老师的《第十二届机器翻译峰会和NIST2009 机器翻译评测研讨会简介》，将分为两部分分别介绍第十二届机器翻译峰会和NIST2009机器翻译评测研讨会。<span id="more-3175"></span></p>
<p>　　<strong>第十二届机器翻译峰会和NIST2009 机器翻译评测研讨会简介</strong><br />
　　　　　　　　　　　作者：米海涛,赵红梅,刘群</p>
<p>　今年第十二届机器翻译峰会(MT Summit XII)和NIST2009 机器翻译评测研讨会(NIST Open MT 2009 Evaluation Workshop) 这两个会议在风景优美的加拿大首府渥太华举行,时间分别为: 8 月26 日到30 日、8 月31 日到9 月1 日。作为参会者,我们给大家简要介绍一下这两个会议的大致情况,希望与读者分享我们的体会和感受。<br />
<strong><br />
第十二届机器翻译峰会:</strong><br />
　　MT Summit (机器翻译峰会) 在机器翻译领域有较大的影响力,它历史较长,每两年举行一次,今年已经是第十二届。该会议不仅关注机器翻译研究,而且也关注机器翻译的应用,因此每次参会者中除了有机器翻译研究人员外,还有相当多的政府部门与商业机构的人员。机器翻译峰会分别由亚洲机器翻译协会(AAMT , the Asia2Pacific Association for Machine Translation ) 、欧洲机器翻译协会( EAMT) 、美洲机器翻译协会(AMTA ,the Association for Machine Translation in the Americas) 轮流举办。今年的MT Summit XII 会议由国际机器翻译协会( IAMT ,the International Association for Machine Translation ) 及美洲机器翻译协会(AMTA )共同举办。<br />
　　今年的机器翻译峰会从8 月26 日开始到8 月 30 日结束,为期五天,共有300 人参加了这个会议, 他们有的是机器翻译国际性研究开发机构的科学家和工程开发人员,有的是政府和商业部门的机器翻译用户。会议活动内容很丰富,旨在: 让来自研究、政府、商业部门的与会者借助专家之力,共同探讨怎样利用机器翻译技术来克服语言障碍和数字化鸿沟。<br />
　　我们的总体感觉是: 机器翻译峰会在关注机器翻译研究的同时,更加侧重于关注机器翻译的实际应用,更加贴近机器翻译用户。除了机器翻译产品外,研发人员还带来了其他的语言处理工具在这个会上进行展示。<br />
　　这届机器翻译峰会为期五天的会议主要包括以下几部分内容:<br />
　　1) 机器翻译研究;<br />
　　2) 政府和商业部门的机器翻译应用;<br />
　　3) 关于翻译人员培训和翻译工具使用技术;<br />
　　4) 技术展示: 包括机译系统以及结合机译技术的应用软件的展示;<br />
　　5) 与会议内容相关的专题知识讲座(Tutorials) 。<br />
　　会议第一天安排了专题知识讲座,而随后的27 、28 、29 三天是主会时间,27 日上午全体人员济济一堂,聆听了IAMT 主席Laurie Gerber 的欢迎致辞以及会议概要。上午的报告中比较精彩的有来自Translated. com 的首席执行官Marco Trombetti 所作的“Getting a share of the human translation market with the world’s largest translation memory”,介绍了一个网站是如何通过共享翻译记忆的方式运营的,让人很受启发。另外,本次会议的程序主席之一Pierre Isabelle 先生针对机器翻译目前的研究现况作了题为“MT : The current research landscape”的回顾性报告,有趣的是,他特别提到由于国际上对汉英机器翻译研究的关注,使得越来越多的中国学者投入到这一研究领域中。上午的会议中,来自政府和商业部门的用户非常活跃,提问很积极,讨论也比较热烈。用户提问所站的角度经常是与研究人员明显不同,有些问题在我们研究者看来,初听上去似乎有些幼稚,细想起来又确实是机器翻译用户在使用中所遇到、却往往被研究者所忽略的实际问题,很值得我们深入思考。例如在政府用户报告中,有一篇报告的题目就是“如何读懂一篇机器翻译的文本( How to Read a Machine2Translated Text ) ”,让我们这些研究人员不禁有点哭笑不得,又有点汗颜,如果我们的系统翻译质量能更好一些,也许就不需要这位用户来做这种研究了。这从一个侧面反映了机器翻译确实已经在很多场合有了非常具体的应用,也让人体会到MT Summit 会议与ACL 这样的纯学术会议明显不同之处。<br />
　　从下午开始研讨会分设机器翻译研究、政府用户和商业用户三个分会场。我们参加的是机器翻译研究分会场,本届机器翻译峰会共收录了正式研究论文48 篇,张贴论文27 篇,此次会议口头报告共有21 场,其中有计算技术研究所赵红梅老师等撰写的论文“Introduction to China’s CWMT2008 Machine Translation Evaluation”报告,该报告向与会者简明扼要地介绍了第四届全国机器翻译研讨会(CWMT2008) 评测的情况,使得国际上机器翻译的同行们对中国的机器翻译评<br />
测有了更多的了解。<br />
　　政府用户和商业用户两个分会场也很有意思,这里有很多政府用户或者商业用户的需求分析、使用报告、经验交流、教育培训等等方面的内容,非常丰富多彩,反映了国际上机器翻译应用方方面面的问题,很值得深入去研究和思考。可惜我们分身无术,没有太多去关注这些报告。<br />
　　除了主会以外,本届峰会还设有技术展示( Technology showcase) 以及专题讨论会(Workshop) 。<br />
　　为期半天的技术展示的参展单位包括: Microsoft、Systran 、AAI Group &#038; Advanced Computing Training School 、C2DAC、Language Weaver、Basic Basis Technology 等多家著名企业,他们展示了各自的机器翻译应用系统和其他自然语言处理软件。参加展示的公司虽然不算很多,不过展示的内容都非常精彩,很有意思。<br />
　　专题讨论会共分7 场,其中机器翻译峰会第三届专利翻译研讨会( 3rd Workshop on Patent Translation) 吸引了我们更多的注意。该讨论会还邀请了来自中国国家知识产权局的王丹作了题为“SIPO’s Effort s On Improving Quality of Chinese-English Patent Machine Translation Service”的报告,介绍了知识产权局在提高汉英机器翻译质量方面所做的工作。随着机器翻译研究和技术的不断发展,机器翻译在专业翻译方面的优势日渐凸显,专利翻译是机器翻译技术应用的一个非常好的突破点,不论在欧洲、日本,还是中国,专利机器翻译的市场都是被一致看好的。<br />
　　本届机器翻译峰会确定了下一届机器翻译峰会(MT summit XIII) 将于2011 年在中国厦门召开, 该峰会的主办方是亚太机器翻译协会(AAMT) ,承办方是厦门大学。</p>
<p>注：转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/第十二届机器翻译峰会和nist2009机器翻译评测简介1">http://www.52nlp.cn/第十二届机器翻译峰会和nist2009机器翻译评测简介1</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/%e7%ac%ac%e5%8d%81%e4%ba%8c%e5%b1%8a%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b3%b0%e4%bc%9a%e5%92%8cnist2009%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e8%af%84%e6%b5%8b%e7%ae%80%e4%bb%8b2' rel='bookmark' title='Permanent Link: 第十二届机器翻译峰会和NIST2009机器翻译评测研讨会简介2'>第十二届机器翻译峰会和NIST2009机器翻译评测研讨会简介2</a></li>
<li><a href='http://www.52nlp.cn/top-11-reasons-to-come-to-the-mt-summit' rel='bookmark' title='Permanent Link: 参加机器翻译峰会的十一大理由'>参加机器翻译峰会的十一大理由</a></li>
<li><a href='http://www.52nlp.cn/machine-translation-summit-xii-follow-up' rel='bookmark' title='Permanent Link: 第十二届机器翻译峰会后续'>第十二届机器翻译峰会后续</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-%e8%af%84%e8%bf%b0%e8%8a%82%e9%80%89' rel='bookmark' title='Permanent Link: ACL-IJCNLP 2009 评述节选'>ACL-IJCNLP 2009 评述节选</a></li>
<li><a href='http://www.52nlp.cn/cwmt2009-follow-up' rel='bookmark' title='Permanent Link: 第五届全国机器翻译研讨会后续'>第五届全国机器翻译研讨会后续</a></li>
<li><a href='http://www.52nlp.cn/euromatrix-and-spirit-of-openness' rel='bookmark' title='Permanent Link: EuroMatrix与开放精神'>EuroMatrix与开放精神</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-five-machine-translation' rel='bookmark' title='Permanent Link: 自然语言处理与计算语言学书籍汇总之五：机器翻译'>自然语言处理与计算语言学书籍汇总之五：机器翻译</a></li>
<li><a href='http://www.52nlp.cn/the-eight-major-challenges-of-machine-translation' rel='bookmark' title='Permanent Link: 机器翻译的八大挑战'>机器翻译的八大挑战</a></li>
<li><a href='http://www.52nlp.cn/machine-translation-archive' rel='bookmark' title='Permanent Link: 机器翻译档案计划'>机器翻译档案计划</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-heroe-franz-josef-och' rel='bookmark' title='Permanent Link: 统计机器翻译英雄谱一：Franz Josef Och'>统计机器翻译英雄谱一：Franz Josef Och</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e7%ac%ac%e5%8d%81%e4%ba%8c%e5%b1%8a%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b3%b0%e4%bc%9a%e5%92%8cnist2009%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e8%af%84%e6%b5%8b%e7%ae%80%e4%bb%8b1/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>ACL-IJCNLP 2009 评述节选</title>
		<link>http://www.52nlp.cn/acl-ijcnlp-2009-%e8%af%84%e8%bf%b0%e8%8a%82%e9%80%89</link>
		<comments>http://www.52nlp.cn/acl-ijcnlp-2009-%e8%af%84%e8%bf%b0%e8%8a%82%e9%80%89#comments</comments>
		<pubDate>Thu, 18 Mar 2010 15:08:41 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[计算语言学]]></category>
		<category><![CDATA[转载]]></category>
		<category><![CDATA[ACL]]></category>
		<category><![CDATA[IJCNLP]]></category>
		<category><![CDATA[中文信息学报]]></category>
		<category><![CDATA[刘洋]]></category>
		<category><![CDATA[刘群]]></category>
		<category><![CDATA[机器翻译]]></category>
		<category><![CDATA[王海峰]]></category>
		<category><![CDATA[苏克毅]]></category>
		<category><![CDATA[贾里尼克]]></category>
		<category><![CDATA[赵世奇]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=3155</guid>
		<description><![CDATA[　　晚上师弟传给我两篇《中文信息学报》09年第6期的文章：东芝(中国) 研究开发中心王海峰老师的《ACL-IJCNLP 2009 评述》以及中科院计算所米海涛,赵红梅,刘群老师的《第十二届机器翻译峰会和NIST2009 机器翻译评测研讨会简介》，读后感觉写得很不错，估计有些读者还未见到原文，计划在52nlp上分别节选一部分内容，分享一下这些与会专家的感受。
　　　　　　　　　ACL-IJCNLP 2009 评述
　　　　　　　　　　　　作者：王海峰
1 　概况
　　计算语言学学会( The Association for Computational Linguistics) 旗下的ACL 年会是国际上最有影响的计算语言学及自然语言处理学术会议,而IJCNLP 则是亚洲自然语言处理联合会(Asian Federation of Natural Language Processing) 的旗舰会议。2009 年,第47 届ACL 和第4 届IJCNLP的联合会议(ACL2IJ CNL P 2009) 于8 月2～7 日在新加坡成功召开,这是ACL 历史上第三次在亚洲召开(前两次分别为2000 年在中国香港、2003 年在日本札幌) 。除ACL-IJCNLP主会议外,还有一个会议(Conference) 、12 个专题研讨会(Workshop ) 和6 个专题讲座( Tutorial) 等同期举行。
　　&#8230;
2 　论文
　　每年的ACL 论文,尤其是主会议长文(Full Paper) ,基本反映了自然语言处理领域最新研究进展、代表了本领域最高研究水平。今年的主会议论文投稿数达到了创纪录的925 篇,其中长文569 篇、短文356 篇。被录用的长文有120 篇,录用率21. 1 %;短文被录用93 篇,录用率26. 1 [...]


相关文章:<ol><li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-best-paper-awards' rel='bookmark' title='Permanent Link: ACL-IJCNLP 2009 Best Paper Awards'>ACL-IJCNLP 2009 Best Paper Awards</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-running-two' rel='bookmark' title='Permanent Link: ACL-IJCNLP 2009会议进行时二'>ACL-IJCNLP 2009会议进行时二</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-running-one' rel='bookmark' title='Permanent Link: ACL-IJCNLP 2009会议进行时一'>ACL-IJCNLP 2009会议进行时一</a></li>
<li><a href='http://www.52nlp.cn/acl09-full-paper-accepted-details' rel='bookmark' title='Permanent Link: ACL09 Full Paper录用情况'>ACL09 Full Paper录用情况</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-five-machine-translation' rel='bookmark' title='Permanent Link: 自然语言处理与计算语言学书籍汇总之五：机器翻译'>自然语言处理与计算语言学书籍汇总之五：机器翻译</a></li>
<li><a href='http://www.52nlp.cn/acl09-acceptance-rates-by-areas' rel='bookmark' title='Permanent Link: ACL09 Full Paper各研究领域的录用情况'>ACL09 Full Paper各研究领域的录用情况</a></li>
<li><a href='http://www.52nlp.cn/acl-2010-best-paper-awards' rel='bookmark' title='Permanent Link: ACL 2010 Best Paper Awards'>ACL 2010 Best Paper Awards</a></li>
<li><a href='http://www.52nlp.cn/about-acl-anthology-network' rel='bookmark' title='Permanent Link: ACL Anthology 姊妹篇：ACL Anthology Network'>ACL Anthology 姊妹篇：ACL Anthology Network</a></li>
<li><a href='http://www.52nlp.cn/coling-2010-prospect' rel='bookmark' title='Permanent Link: COLING 2010前瞻——规则与统计共舞，语言随计算齐飞'>COLING 2010前瞻——规则与统计共舞，语言随计算齐飞</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-common-abbreviations-acronyms' rel='bookmark' title='Permanent Link: 自然语言处理及计算语言学常见缩略语'>自然语言处理及计算语言学常见缩略语</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　晚上师弟传给我两篇《中文信息学报》09年第6期的文章：东芝(中国) 研究开发中心王海峰老师的《ACL-IJCNLP 2009 评述》以及中科院计算所米海涛,赵红梅,刘群老师的《第十二届机器翻译峰会和NIST2009 机器翻译评测研讨会简介》，读后感觉写得很不错，估计有些读者还未见到原文，计划在52nlp上分别节选一部分内容，分享一下这些与会专家的感受。<span id="more-3155"></span></p>
<p>　　　　　　　　　<strong>ACL-IJCNLP 2009 评述</strong><br />
　　　　　　　　　　　　作者：王海峰</p>
<p><strong>1 　概况</strong><br />
　　计算语言学学会( The Association for Computational Linguistics) 旗下的ACL 年会是国际上最有影响的计算语言学及自然语言处理学术会议,而IJCNLP 则是亚洲自然语言处理联合会(Asian Federation of Natural Language Processing) 的旗舰会议。2009 年,第47 届ACL 和第4 届IJCNLP的联合会议(ACL2IJ CNL P 2009) 于8 月2～7 日在新加坡成功召开,这是ACL 历史上第三次在亚洲召开(前两次分别为2000 年在中国香港、2003 年在日本札幌) 。除ACL-IJCNLP主会议外,还有一个会议(Conference) 、12 个专题研讨会(Workshop ) 和6 个专题讲座( Tutorial) 等同期举行。<br />
　　&#8230;</p>
<p><strong>2 　论文</strong><br />
　　每年的ACL 论文,尤其是主会议长文(Full Paper) ,基本反映了自然语言处理领域最新研究进展、代表了本领域最高研究水平。今年的主会议论文投稿数达到了创纪录的925 篇,其中长文569 篇、短文356 篇。被录用的长文有120 篇,录用率21. 1 %;短文被录用93 篇,录用率26. 1 %。以下着重介绍最受关注的主会议长文的情况(各项统计数据按第一作者计算) 。从地域分布来看,北美仍以56 篇论文居于领先地位,亚太地区以46 篇居第二位,其他18 篇来自欧洲,而南美等地区虽也有少量投稿,但未能被录用。从国家分布来看,美国的50 篇占有绝对优势,而中国大陆则以15 篇在世界上居于第二,其他发表论文较多的国家有日本、新加坡、德国、加拿大等。中国大陆的研究机构中,近年发表ACL论文较多的微软亚洲研究院、东芝(中国) 研究开发中心、中国科学院计算技术研究所及哈尔滨工业大学继续保持良好势头,再次分别发表多篇论文。同时,北京大学、清华大学、南开大学、苏州大学、中国科学院自动化研究所等单位也有斩获。个人方面,继去年哈尔滨工业大学博士生赵世奇以第一作者身份发表两篇ACL 主会议长文后,今年计算技术研究所刘洋博士也以第一作者身份独中两元,充分展示了我国年轻学者的实力。回顾中国大陆学者过去几年参与ACL 的情况,记得ACL 2005 时,来自中国大陆的主会议论文还只有3 篇、参会学者才仅有4 位。今天的繁荣与几年前的冷清形成了鲜明对比,这些年的长足进步实在值得欣喜。<br />
　　&#8230;<br />
　　近年来广受重视的机器翻译(Machine Translation) 研究仍然保持大热,投稿量和论文录用数量都大幅超过其他领域。从机器翻译领域研究内容来看,解码(Decoding) 受到了比以往更多的重视,从提高解码的性能、速度到在解码器上做系统融合,都有一些很好的结果产生,而本领域推荐的唯一最佳论文候选(Variational Decoding for Statistical Machine Translation) 也是关于解码的。其他研究较多的内容还包括基于语法的翻译、对齐、评价等。值得一提的是,华人学者贡献了23 篇机器翻译长文中的11 篇(其中5 篇来自中国大陆) ,几乎占据了半壁江山。而笔者受邀担任机器翻译领域的两主席之一(另一位是The University of Edinburgh的Philipp Koehn) 、计算技术研究所刘群与笔者分别担任机器翻译分会场主席等,相信也都与华人学者在该领域的整体实力及贡献的提高有关。<br />
　　除了机器翻译,其他一些传统方向,如语义、句法与分析等也占有较大比重。而句法与分析领域更是由于最高录用比例(28. 6 %) 和2 篇最佳论文而受到关注。<br />
　　总体看来,自然语言处理领域的各个方向都处于平稳进步的阶段。其中一个值得注意的现象是,算法的时间效率问题受到了广泛关注。记得一位本领域的国际著名学者曾说过:“我对超过多项式时间复杂性的算法毫无兴趣。”姑且不讨论这句话的是或非, 但算法效率的确非常重要。ACL-IJCNLP 2009 上, Stanford 的Michel Galley、Berkeley 的John DeNero 、Google 的Shankar Kumar 等很多学者都在提高算法效率方面做了很好的工作,包括分析领域的2 篇最佳论文在内的更多论文也都讨论了效率问题。事实上,在真实应用环境下,算法的效率何止重要,它甚至是决定性的。相信在很多研究致力于提高诸如翻译质量、分析准确率、生成正确率等性能指标的同时,提高算法效率方面也一定大有可为。</p>
<p><strong>3 　奖项</strong><br />
　　每年的ACL 都会颁发两个极受关注的奖项:终身成就奖(Lifetime Achievement Award) 和最佳论文奖(Best Paper Awards) 。<br />
　　终身成就奖是对曾对本领域做出过卓越贡献的学者的终极承认与褒奖,是本领域颁发的最高个人荣誉。约翰霍普金斯大学(Johns Hopkins University) 的Frederick Jelinek（注：贾里尼克）因在语音识别及机器翻译等领域的卓越贡献而获得今年的终身成就奖,其获奖演讲的题目是: The Dawn of ASR and MT。<br />
　　最佳论文则基本上代表着当年本领域最好的研究成果,也一定程度上预示着未来的发展动向。今年,各个领域主席共推选出6 篇最佳论文候选,最后,最佳论文委员会从中选择了3 篇作为最佳论文。其中,有2 篇来自传统的句法与分析领域: CMU 的Andre Martins 等人的“Concise Integer Linear Programming Formulations for Dependency Parsing”和Berkeley 的Adam Pauls 等人的“KBest A* Parsing”,另一篇是MIT 的S. R. K. Branavan 等人的“Reinforcement Learning for Mapping Instructions to Actions”。三篇最佳论文全都来自美国的一流名校,也从一个侧面反映出这些名校的确名不虚传。<br />
　　有趣的是,终生成就奖得主Frederick Jelinek和最佳论文得主之一S. R. K. Branavan 不约而同地提到了投稿被拒的往事。Frederick Jelinek 在回顾上世纪80 年代后期他所在的IBM 团队创立统计机器翻译方法的历程时提到,他们的第一篇统计机器翻译论文曾被COLING 拒稿。无独有偶, S. R.K. Branavan 在获奖感言中也提到她的获奖论文曾被先前召开的NAACL HLT 2009 拒稿,引得现场一片哄堂大笑。可见,投稿被拒并不可怕,只要坚定信心继续努力,是金子总会发光的。</p>
<p><strong>4 　结束语</strong><br />
　　除了上述中国大陆学者的情况外,来自中国香港和中国台湾、新加坡、日本及欧美各国的华人学者也在ACL-IJCNLP 2009 上展示了强大实力,本届大会主席( General Conference Chair) 苏克毅、程序委员会主席( Program Chair) 之一苏俭、组委会主席(Local Organizing Chair) 李海洲等就是其中的杰出代表。笔者相信,中国及全世界华人学者的水平仍将继续提高、贡献势将持续增加、影响也必将不断扩大。</p>
<p>附王海峰博士简介：<br />
　　东芝（中国）研究开发中心首席研究员（Chief Research Scientist）、副所长（Deputy Director of Toshiba (China)R&#038;D Center）、兼研究部部长（General Manager of Research Division）。王海峰博士1999年3月毕业于哈尔滨工业大学获工学博士学位，曾任微软（中国）研究院副研究员、isilk.com研究科学家(香港特区政府优秀人才计划)。主要研究方向为自然语言处理与机器翻译、信息检索、语音识别及合成等。</p>
<p>注：转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/acl-ijcnlp-2009-评述节选">http://www.52nlp.cn/acl-ijcnlp-2009-评述节选</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-best-paper-awards' rel='bookmark' title='Permanent Link: ACL-IJCNLP 2009 Best Paper Awards'>ACL-IJCNLP 2009 Best Paper Awards</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-running-two' rel='bookmark' title='Permanent Link: ACL-IJCNLP 2009会议进行时二'>ACL-IJCNLP 2009会议进行时二</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-running-one' rel='bookmark' title='Permanent Link: ACL-IJCNLP 2009会议进行时一'>ACL-IJCNLP 2009会议进行时一</a></li>
<li><a href='http://www.52nlp.cn/acl09-full-paper-accepted-details' rel='bookmark' title='Permanent Link: ACL09 Full Paper录用情况'>ACL09 Full Paper录用情况</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-five-machine-translation' rel='bookmark' title='Permanent Link: 自然语言处理与计算语言学书籍汇总之五：机器翻译'>自然语言处理与计算语言学书籍汇总之五：机器翻译</a></li>
<li><a href='http://www.52nlp.cn/acl09-acceptance-rates-by-areas' rel='bookmark' title='Permanent Link: ACL09 Full Paper各研究领域的录用情况'>ACL09 Full Paper各研究领域的录用情况</a></li>
<li><a href='http://www.52nlp.cn/acl-2010-best-paper-awards' rel='bookmark' title='Permanent Link: ACL 2010 Best Paper Awards'>ACL 2010 Best Paper Awards</a></li>
<li><a href='http://www.52nlp.cn/about-acl-anthology-network' rel='bookmark' title='Permanent Link: ACL Anthology 姊妹篇：ACL Anthology Network'>ACL Anthology 姊妹篇：ACL Anthology Network</a></li>
<li><a href='http://www.52nlp.cn/coling-2010-prospect' rel='bookmark' title='Permanent Link: COLING 2010前瞻——规则与统计共舞，语言随计算齐飞'>COLING 2010前瞻——规则与统计共舞，语言随计算齐飞</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-common-abbreviations-acronyms' rel='bookmark' title='Permanent Link: 自然语言处理及计算语言学常见缩略语'>自然语言处理及计算语言学常见缩略语</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/acl-ijcnlp-2009-%e8%af%84%e8%bf%b0%e8%8a%82%e9%80%89/feed</wfw:commentRss>
		<slash:comments>8</slash:comments>
		</item>
		<item>
		<title>砖石，还是露水</title>
		<link>http://www.52nlp.cn/%e7%a0%96%e7%9f%b3-%e8%bf%98%e6%98%af%e9%9c%b2%e6%b0%b4</link>
		<comments>http://www.52nlp.cn/%e7%a0%96%e7%9f%b3-%e8%bf%98%e6%98%af%e9%9c%b2%e6%b0%b4#comments</comments>
		<pubDate>Sat, 06 Mar 2010 07:40:09 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[转载]]></category>
		<category><![CDATA[中文分词]]></category>
		<category><![CDATA[刘挺]]></category>
		<category><![CDATA[哈工大]]></category>
		<category><![CDATA[字标注]]></category>
		<category><![CDATA[输入法]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=3105</guid>
		<description><![CDATA[　　本文转自哈工大信息检索研究室刘挺老师的博客，是关于创新的，举了两个例子：基于字标注的中文分词方法和搜狗输入法，感觉写得很有启发性，读者也可以对比一下《自然语言处理领域的两种创新观念》。刘老师是国内自然语言处理领域的重量级人物，他的博文估计很多都早已被读者熟悉，这里就不多说了。
　　　　　　　　　　　砖石，还是露水
　　　　　　　　　　　　作者：刘挺
　　我们一天忙到晚，自己耗费了很多精力不说，也消耗着国家的财力物力。我们除了培养了一批学生外，是否为学术进步或技术发展做出了点滴贡献，我们的工作成果是科学技术大厦里的梁柱、砖石，坚固而持久地发挥着作用，还是墙角的露水、楼顶的轻烟，转瞬间就蒸发消散了。
　　要想作出有价值的工作，是需要有一些清晰而坚定的理念支撑的，否则很容易匆匆忙忙地迷失在短期的压力里。我心中好的研究成果是什么样的呢？我想应该具备一下几个特征：
　　1、创新性：与以往的方法有本质的不同
　　2、高性能：解决了旧方法无法解决的问题，导致性能指标有显著性提高
　　3、简单：同行一听就能明白，并认同该方法在原理上的长处，纷纷感叹自己为什么没有想到
　　4、换代：新方法一出，业内大部分产品都纷纷抛弃旧方法，采用这种新方法
　　5、足够的影响面：能够抽象到一定高度，不局限于某个产品的细节
　　举两个例子：
　　1、算法：薛念文基于字标注的汉语分词方法
　　未登录词识别是最影响汉语分词精度的问题，它的影响超过分词歧义处理。以往的方法先用词表把已登录的词先识别出来，然后在“散串”中去找未登录词。这样做的缺陷在于两方面，一是“分词歧义”和“未登录词识别”这两个问题的参数权重估价标准无法统一，二是未登录词中有时候会包含已登录词，或者未登录词和已登录词的交界处有歧义。由于这些不足无法克服，汉语分词的精度一直徘徊不前，方法上没有实质性创新，大多是修修补补。
　　薛念文2002年提出了“基于字标注的汉语分词方法”，这种方法把以往用于短语识别的BIES标注方法（B-短语开头词，I-短语中间词，E-短语末尾词，S-单独成为短语的词）用到了分词上，对汉字进行标注（B-词中开头字，I-词中中间字，E-词中末尾字，S-单独成词的字），汉字得到标注，分词结果立现。对已登录词和未登录词中的字标注形式是一样的，这样就建立了统一的分词模型，而且不需要词表，只要有足够大的经过人工校对的分词语料即可。实验效果明显提高，凡是自然语言处理领域的人都知道BIES，一听就懂了，几年下来，多数商用的汉语分词系统都在采用基于字标注的方法了，分词是中文处理的基础问题，影响面足够大。
　　这种方法的创新路线是“移植”，它把分词问题从匹配切分问题转换为标注问题，把紧邻“短语识别”中的方法移植过来，取得了成功。
　　2、产品：搜狗拼音输入法
　　在搜狗拼音以前，拼音输入法已经有很多种，如智能ABC，微软拼音等。2000年前后昙花一现的“智能狂拼”用大规模语料提高音字转换的精度，但提高是有限的，并没有产生换代的效果。拼音输入法似乎已经做到了极致，尽管不能让人很满意，但似乎也就只能停留在这个水平上了。
　　2006年，搜狗拼音横空出世了，它利用网络收集广大输入法用户贡献的新词，什么“李宇春”、“张靓颖”，什么“蜗居”、“蚁族”，当你想输入时，早有网友贡献过该词，输入速度大幅度提升。拼音输入法最头疼的未登录词输入的准确性被大幅度提高了。　　
　　原理如此简单，效果如此明显，谷歌立即效仿，还惹上了侵权的麻烦，腾讯不甘落后，输入法在绝顶上又攀上了天梯，技术真的没有止境。搜狗由于率先创新，以先发优势横扫输入法市场，输入法是比较有粘性的产品，但也挡不住输入速度和体验大幅度提升的诱惑，在较短的时间内，搜狗输入法的市场占有率超过了70%。这是典型的由于技术创新带来的市场狂澜，好产品会说话。输入是计算机最基本的功能，搜狗通过输入法抢占客户端，影响颇大，为未来的产品拓展勾勒出广阔的空间。
　　有的研究者喜欢开创新领域，找出新方向，用20%的力气作出80%的效果，然后又去开拓别的方向，因为最后20%的路程要用80%的努力才能完成，费力不讨好。搜狗输入法的成功告诉我们，最后5-10%的技术门槛里照样孕育这无穷的商机，只要方法得当，密切观察环境的变化，原来在单机条件下的确做不动的技术，在网络环境下有可能获得突破性的进展。跨越式的发展，不能靠补丁落补丁的量变积累，要有更纯净的一揽子解决问题的革命性方案。
　　衷心期盼80后、90后的青年学者们，不满足于小的改良，不满足于使用机器学习领域最新研制的“秘密武器”，而是满怀颠覆式的技术梦想，抓住根本性问题，洞悉技术环境的变化，移植嫁接，化繁为简，做出让人眼前一亮、拍案叫绝的创新成果来。
注：转载请注明出处“我爱自然语言处理”：www.52nlp.cn
本文链接地址：http://www.52nlp.cn/砖石-还是露水










相关文章:Beautiful Data-统计语言模型的应用一：缘起
自然语言处理领域的两种创新观念
ACL-IJCNLP 2009 评述节选
立委随笔：机器学习和自然语言处理
中文分词入门之文献
一些自然语言处理及计算语言学相关的课件
ACL09 Full Paper各研究领域的录用情况
基于字标注的中文分词方法
自然语言处理中理性主义与经验主义的优缺点
冯志伟：自然语言处理的形式模型



相关文章:<ol><li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%80%e7%bc%98%e8%b5%b7' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用一：缘起'>Beautiful Data-统计语言模型的应用一：缘起</a></li>
<li><a href='http://www.52nlp.cn/two-innovative-ideas-in-natural-language-processing-area' rel='bookmark' title='Permanent Link: 自然语言处理领域的两种创新观念'>自然语言处理领域的两种创新观念</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-%e8%af%84%e8%bf%b0%e8%8a%82%e9%80%89' rel='bookmark' title='Permanent Link: ACL-IJCNLP 2009 评述节选'>ACL-IJCNLP 2009 评述节选</a></li>
<li><a href='http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e9%9a%8f%e7%ac%94-%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0%e5%92%8c%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86' rel='bookmark' title='Permanent Link: 立委随笔：机器学习和自然语言处理'>立委随笔：机器学习和自然语言处理</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='Permanent Link: 中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/some-natural-language-processing-and-computational-linguistics-courses-material' rel='bookmark' title='Permanent Link: 一些自然语言处理及计算语言学相关的课件'>一些自然语言处理及计算语言学相关的课件</a></li>
<li><a href='http://www.52nlp.cn/acl09-acceptance-rates-by-areas' rel='bookmark' title='Permanent Link: ACL09 Full Paper各研究领域的录用情况'>ACL09 Full Paper各研究领域的录用情况</a></li>
<li><a href='http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation' rel='bookmark' title='Permanent Link: 基于字标注的中文分词方法'>基于字标注的中文分词方法</a></li>
<li><a href='http://www.52nlp.cn/the-advantages-and-disadvantages-of-the-rationalism-and-empiricism-in-nlp' rel='bookmark' title='Permanent Link: 自然语言处理中理性主义与经验主义的优缺点'>自然语言处理中理性主义与经验主义的优缺点</a></li>
<li><a href='http://www.52nlp.cn/%e5%86%af%e5%bf%97%e4%bc%9f-%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86%e7%9a%84%e5%bd%a2%e5%bc%8f%e6%a8%a1%e5%9e%8b' rel='bookmark' title='Permanent Link: 冯志伟：自然语言处理的形式模型'>冯志伟：自然语言处理的形式模型</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　本文转自哈工大信息检索研究室刘挺老师的<a href="http://blog.sina.com.cn/s/blog_4cbec5e90100gztv.html"target=_blank>博客</a>，是关于创新的，举了两个例子：基于字标注的中文分词方法和搜狗输入法，感觉写得很有启发性，读者也可以对比一下《<a href="http://www.52nlp.cn/two-innovative-ideas-in-natural-language-processing-area"target=_blank>自然语言处理领域的两种创新观念</a>》。刘老师是国内自然语言处理领域的重量级人物，他的博文估计很多都早已被读者熟悉，这里就不多说了。<span id="more-3105"></span></p>
<p>　　　　　　　　　　　<strong>砖石，还是露水</strong><br />
　　　　　　　　　　　　作者：刘挺<br />
　　我们一天忙到晚，自己耗费了很多精力不说，也消耗着国家的财力物力。我们除了培养了一批学生外，是否为学术进步或技术发展做出了点滴贡献，我们的工作成果是科学技术大厦里的梁柱、砖石，坚固而持久地发挥着作用，还是墙角的露水、楼顶的轻烟，转瞬间就蒸发消散了。</p>
<p>　　要想作出有价值的工作，是需要有一些清晰而坚定的理念支撑的，否则很容易匆匆忙忙地迷失在短期的压力里。我心中好的研究成果是什么样的呢？我想应该具备一下几个特征：<br />
　　1、创新性：与以往的方法有本质的不同<br />
　　2、高性能：解决了旧方法无法解决的问题，导致性能指标有显著性提高<br />
　　3、简单：同行一听就能明白，并认同该方法在原理上的长处，纷纷感叹自己为什么没有想到<br />
　　4、换代：新方法一出，业内大部分产品都纷纷抛弃旧方法，采用这种新方法<br />
　　5、足够的影响面：能够抽象到一定高度，不局限于某个产品的细节</p>
<p>　　举两个例子：</p>
<p>　　1、算法：薛念文基于字标注的汉语分词方法<br />
　　未登录词识别是最影响汉语分词精度的问题，它的影响超过分词歧义处理。以往的方法先用词表把已登录的词先识别出来，然后在“散串”中去找未登录词。这样做的缺陷在于两方面，一是“分词歧义”和“未登录词识别”这两个问题的参数权重估价标准无法统一，二是未登录词中有时候会包含已登录词，或者未登录词和已登录词的交界处有歧义。由于这些不足无法克服，汉语分词的精度一直徘徊不前，方法上没有实质性创新，大多是修修补补。<br />
　　薛念文2002年提出了“基于字标注的汉语分词方法”，这种方法把以往用于短语识别的BIES标注方法（B-短语开头词，I-短语中间词，E-短语末尾词，S-单独成为短语的词）用到了分词上，对汉字进行标注（B-词中开头字，I-词中中间字，E-词中末尾字，S-单独成词的字），汉字得到标注，分词结果立现。对已登录词和未登录词中的字标注形式是一样的，这样就建立了统一的分词模型，而且不需要词表，只要有足够大的经过人工校对的分词语料即可。实验效果明显提高，凡是自然语言处理领域的人都知道BIES，一听就懂了，几年下来，多数商用的汉语分词系统都在采用基于字标注的方法了，分词是中文处理的基础问题，影响面足够大。<br />
　　这种方法的创新路线是“移植”，它把分词问题从匹配切分问题转换为标注问题，把紧邻“短语识别”中的方法移植过来，取得了成功。</p>
<p>　　2、产品：搜狗拼音输入法<br />
　　在搜狗拼音以前，拼音输入法已经有很多种，如智能ABC，微软拼音等。2000年前后昙花一现的“智能狂拼”用大规模语料提高音字转换的精度，但提高是有限的，并没有产生换代的效果。拼音输入法似乎已经做到了极致，尽管不能让人很满意，但似乎也就只能停留在这个水平上了。<br />
　　2006年，搜狗拼音横空出世了，它利用网络收集广大输入法用户贡献的新词，什么“李宇春”、“张靓颖”，什么“蜗居”、“蚁族”，当你想输入时，早有网友贡献过该词，输入速度大幅度提升。拼音输入法最头疼的未登录词输入的准确性被大幅度提高了。　　<br />
　　原理如此简单，效果如此明显，谷歌立即效仿，还惹上了侵权的麻烦，腾讯不甘落后，输入法在绝顶上又攀上了天梯，技术真的没有止境。搜狗由于率先创新，以先发优势横扫输入法市场，输入法是比较有粘性的产品，但也挡不住输入速度和体验大幅度提升的诱惑，在较短的时间内，搜狗输入法的市场占有率超过了70%。这是典型的由于技术创新带来的市场狂澜，好产品会说话。输入是计算机最基本的功能，搜狗通过输入法抢占客户端，影响颇大，为未来的产品拓展勾勒出广阔的空间。<br />
　　有的研究者喜欢开创新领域，找出新方向，用20%的力气作出80%的效果，然后又去开拓别的方向，因为最后20%的路程要用80%的努力才能完成，费力不讨好。搜狗输入法的成功告诉我们，最后5-10%的技术门槛里照样孕育这无穷的商机，只要方法得当，密切观察环境的变化，原来在单机条件下的确做不动的技术，在网络环境下有可能获得突破性的进展。跨越式的发展，不能靠补丁落补丁的量变积累，要有更纯净的一揽子解决问题的革命性方案。</p>
<p>　　衷心期盼80后、90后的青年学者们，不满足于小的改良，不满足于使用机器学习领域最新研制的“秘密武器”，而是满怀颠覆式的技术梦想，抓住根本性问题，洞悉技术环境的变化，移植嫁接，化繁为简，做出让人眼前一亮、拍案叫绝的创新成果来。</p>
<p>注：转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/砖石-还是露水">http://www.52nlp.cn/砖石-还是露水</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%80%e7%bc%98%e8%b5%b7' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用一：缘起'>Beautiful Data-统计语言模型的应用一：缘起</a></li>
<li><a href='http://www.52nlp.cn/two-innovative-ideas-in-natural-language-processing-area' rel='bookmark' title='Permanent Link: 自然语言处理领域的两种创新观念'>自然语言处理领域的两种创新观念</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-%e8%af%84%e8%bf%b0%e8%8a%82%e9%80%89' rel='bookmark' title='Permanent Link: ACL-IJCNLP 2009 评述节选'>ACL-IJCNLP 2009 评述节选</a></li>
<li><a href='http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e9%9a%8f%e7%ac%94-%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0%e5%92%8c%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86' rel='bookmark' title='Permanent Link: 立委随笔：机器学习和自然语言处理'>立委随笔：机器学习和自然语言处理</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='Permanent Link: 中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/some-natural-language-processing-and-computational-linguistics-courses-material' rel='bookmark' title='Permanent Link: 一些自然语言处理及计算语言学相关的课件'>一些自然语言处理及计算语言学相关的课件</a></li>
<li><a href='http://www.52nlp.cn/acl09-acceptance-rates-by-areas' rel='bookmark' title='Permanent Link: ACL09 Full Paper各研究领域的录用情况'>ACL09 Full Paper各研究领域的录用情况</a></li>
<li><a href='http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation' rel='bookmark' title='Permanent Link: 基于字标注的中文分词方法'>基于字标注的中文分词方法</a></li>
<li><a href='http://www.52nlp.cn/the-advantages-and-disadvantages-of-the-rationalism-and-empiricism-in-nlp' rel='bookmark' title='Permanent Link: 自然语言处理中理性主义与经验主义的优缺点'>自然语言处理中理性主义与经验主义的优缺点</a></li>
<li><a href='http://www.52nlp.cn/%e5%86%af%e5%bf%97%e4%bc%9f-%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86%e7%9a%84%e5%bd%a2%e5%bc%8f%e6%a8%a1%e5%9e%8b' rel='bookmark' title='Permanent Link: 冯志伟：自然语言处理的形式模型'>冯志伟：自然语言处理的形式模型</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e7%a0%96%e7%9f%b3-%e8%bf%98%e6%98%af%e9%9c%b2%e6%b0%b4/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>立委随笔：机器学习和自然语言处理</title>
		<link>http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e9%9a%8f%e7%ac%94-%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0%e5%92%8c%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86</link>
		<comments>http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e9%9a%8f%e7%ac%94-%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0%e5%92%8c%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86#comments</comments>
		<pubDate>Mon, 22 Feb 2010 16:35:05 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[机器学习]]></category>
		<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[转载]]></category>
		<category><![CDATA[人工智能]]></category>
		<category><![CDATA[机器翻译]]></category>
		<category><![CDATA[李维]]></category>
		<category><![CDATA[计算语言学]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=3078</guid>
		<description><![CDATA[　　不小心撞上了科学网上李维老师的博客，读了他个人履历和几篇文章，只能用“敬佩”二字对李维老师表示敬意。作为年后开工的第一篇博文，本无转载计划的，但是这里还是选用李维老师的随笔《机器学习和自然语言处理》，这是一位计算语言学学者和自然语言处理实践者多年来的经验之谈，没有相当的积累，纸上是谈不来的。不过，更推荐有兴趣的读者读读《朝华午拾：在美国写基金申请的酸甜苦辣》，虽然很长，我还是一气呵成读完的，除了佩服李维老师的行文能力外，也能看到成功背后的付出和汗水是多么的巨大。
　　　　　　　　《立委随笔：机器学习和自然语言处理》
　　　　　　　　　　　　　　作者：李维
有脚客介绍人工智能（AI）现状 ( http://rl.rockiestech.com/node/636 )，认为由于机器学习（ML）技术的长足进步，人工智能正进入繁荣期，并且开始成功用于自然语言处理（NLP). 除了调子过分乐观了一些，这是个不错的介绍。下面的随笔是根据我自己的经验和体会而来。
AI, ML and NLP
NLP 中过分强调 AI 曾经是斜途，其实现在我认为也还是斜途, 我很久以前就有过这个看法，现在觉得并没过时：

机器翻译的另一极是建立在充分理解基础上, 毋须转换的自动翻译, 这是从实质上对人的翻译过程的模拟。这时候, 源语分析才是真正的自然语言理解, 机器翻译才真正属于人工智能。然而, 这里遇到两个难题: 一是知识处理问题; 二是所谓元语言问题。
考察人的翻译活动, 可以发现, 人是靠丰富的知识在理解的基础上从事翻译的。这些知识既包括语言知识, 也包括世界知识(常识、专业知识等)。如何组织这些包罗万象的百科全书一样的知识, 以便适应机器处理和运用的需要, 是人工智能所面临的根本性课题。
……
总之, 虽然机器翻译的最终出路在于人工智能的理论和技术的突破, 但在条件不成熟的时候过份强调机器翻译的人工智能性质, 一味追求基于知识和理解的自动翻译,对于应用型机器翻译系统的研制, 往往没有益处。
摘自【立委科普：机器翻译】: http://www.starlakeporch.net/bbs/read.php?45,18361
AI 里面调子最高的一派是 Doug Lenat，他的 cyc 项目进行了多年，获得了政府和许多 high profile sponsors 的多年资助，一直无法实用，尽管他自己10年前就宣扬已经接近应用前夜了。对于 Doug Lenat，我打心底钦佩，这种基于常识推理的 AI 需要苦功夫，是对人的智能（一个侧面）的逼真模拟。
多数学者对此不以为然，对这种 “纯粹AI” 不看好，大家大都转向以统计为基础的机器学习（ML）。基本上是把人的智能看成黑箱，不再试图从本质上模拟人脑的过程，包括逻辑推理，而是把每一个具体的智能活动定义为一个任务，一个从输入转换成所求的输出的任务，而这是可以客观度量的。只要机器能够训练成尽可能逼近所需的输出，人的智能就局部实现了。
ML 和 NLP
如今，NLP（包括机器翻译MT）也基本上已经被搞机器学习的人统治了，传统的规则方法只能打边鼓。他们也确实弄出一些名堂来，尤其是语音处理，分类(classification)，和知识习得(knowledge acquisition) 方面。
目前的情况是，有指导的学习（supervised learning） 比较成熟，但遭遇知识瓶颈，就是需要大数据量的 labeled data 的问题。如果问题单纯，features 选取容易，又有海量数据，学习的结果真地可以很接近人工水平。我们曾经做过一项研究（碰巧的是，IBM 也大体同时做了这项研究，不如我们深入，但大同小异，结果也类似），找到了一个很好的应用领域做大小写恢复工作（Case [...]


相关文章:<ol><li><a href='http://www.52nlp.cn/acl-2010-best-paper-awards' rel='bookmark' title='Permanent Link: ACL 2010 Best Paper Awards'>ACL 2010 Best Paper Awards</a></li>
<li><a href='http://www.52nlp.cn/%e6%9d%a1%e4%bb%b6%e9%9a%8f%e6%9c%ba%e5%9c%ba%e6%96%87%e7%8c%ae%e9%98%85%e8%af%bb%e6%8c%87%e5%8d%97' rel='bookmark' title='Permanent Link: 条件随机场文献阅读指南'>条件随机场文献阅读指南</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第四部分）'>MIT自然语言处理第四讲：标注（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/acl09-acceptance-rates-by-areas' rel='bookmark' title='Permanent Link: ACL09 Full Paper各研究领域的录用情况'>ACL09 Full Paper各研究领域的录用情况</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第二部分）'>MIT自然语言处理第四讲：标注（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/coling-2010-list-of-accepted-papers-oral' rel='bookmark' title='Permanent Link: COLING 2010: List of Accepted Papers (Oral)'>COLING 2010: List of Accepted Papers (Oral)</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-running-two' rel='bookmark' title='Permanent Link: ACL-IJCNLP 2009会议进行时二'>ACL-IJCNLP 2009会议进行时二</a></li>
<li><a href='http://www.52nlp.cn/mit-open-course-natural-language-processing-introduce' rel='bookmark' title='Permanent Link: MIT开放式课程“自然语言处理”介绍'>MIT开放式课程“自然语言处理”介绍</a></li>
<li><a href='http://www.52nlp.cn/most-influential-nlp-papers' rel='bookmark' title='Permanent Link: 最有影响力的自然语言处理论文'>最有影响力的自然语言处理论文</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第一讲：简介和概述（第三部分）'>MIT自然语言处理第一讲：简介和概述（第三部分）</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　不小心撞上了科学网上李维老师的<a href="http://www.sciencetimes.com.cn/u/liwei999/"target=_blank>博客</a>，读了他个人履历和几篇文章，只能用“敬佩”二字对李维老师表示敬意。作为年后开工的第一篇博文，本无转载计划的，但是这里还是选用李维老师的随笔《<a href="http://www.sciencetimes.com.cn/m/user_content.aspx?id=294037"target=_blank>机器学习和自然语言处理</a>》，这是一位计算语言学学者和自然语言处理实践者多年来的经验之谈，没有相当的积累，纸上是谈不来的。不过，更推荐有兴趣的读者读读《<a href="http://www.sciencetimes.com.cn/m/user_content.aspx?id=295797"target=_blank>朝华午拾：在美国写基金申请的酸甜苦辣</a>》，虽然很长，我还是一气呵成读完的，除了佩服李维老师的行文能力外，也能看到成功背后的付出和汗水是多么的巨大。<span id="more-3078"></span></p>
<p>　　　　　　　　<strong>《立委随笔：机器学习和自然语言处理》</strong><br />
　　　　　　　　　　　　　　作者：李维</p>
<p>有脚客介绍人工智能（AI）现状 ( http://rl.rockiestech.com/node/636 )，认为由于机器学习（ML）技术的长足进步，人工智能正进入繁荣期，并且开始成功用于自然语言处理（NLP). 除了调子过分乐观了一些，这是个不错的介绍。下面的随笔是根据我自己的经验和体会而来。</p>
<p>AI, ML and NLP</p>
<p>NLP 中过分强调 AI 曾经是斜途，其实现在我认为也还是斜途, 我很久以前就有过这个看法，现在觉得并没过时：</p>
<blockquote><p>
机器翻译的另一极是建立在充分理解基础上, 毋须转换的自动翻译, 这是从实质上对人的翻译过程的模拟。这时候, 源语分析才是真正的自然语言理解, 机器翻译才真正属于人工智能。然而, 这里遇到两个难题: 一是知识处理问题; 二是所谓元语言问题。</p>
<p>考察人的翻译活动, 可以发现, 人是靠丰富的知识在理解的基础上从事翻译的。这些知识既包括语言知识, 也包括世界知识(常识、专业知识等)。如何组织这些包罗万象的百科全书一样的知识, 以便适应机器处理和运用的需要, 是人工智能所面临的根本性课题。<br />
……</p>
<p>总之, 虽然机器翻译的最终出路在于人工智能的理论和技术的突破, 但在条件不成熟的时候过份强调机器翻译的人工智能性质, 一味追求基于知识和理解的自动翻译,对于应用型机器翻译系统的研制, 往往没有益处。<br />
摘自【立委科普：机器翻译】: http://www.starlakeporch.net/bbs/read.php?45,18361</p></blockquote>
<p>AI 里面调子最高的一派是 Doug Lenat，他的 cyc 项目进行了多年，获得了政府和许多 high profile sponsors 的多年资助，一直无法实用，尽管他自己10年前就宣扬已经接近应用前夜了。对于 Doug Lenat，我打心底钦佩，这种基于常识推理的 AI 需要苦功夫，是对人的智能（一个侧面）的逼真模拟。</p>
<p>多数学者对此不以为然，对这种 “纯粹AI” 不看好，大家大都转向以统计为基础的机器学习（ML）。基本上是把人的智能看成黑箱，不再试图从本质上模拟人脑的过程，包括逻辑推理，而是把每一个具体的智能活动定义为一个任务，一个从输入转换成所求的输出的任务，而这是可以客观度量的。只要机器能够训练成尽可能逼近所需的输出，人的智能就局部实现了。</p>
<p>ML 和 NLP</p>
<p>如今，NLP（包括机器翻译MT）也基本上已经被搞机器学习的人统治了，传统的规则方法只能打边鼓。他们也确实弄出一些名堂来，尤其是语音处理，分类(classification)，和知识习得(knowledge acquisition) 方面。</p>
<p>目前的情况是，有指导的学习（supervised learning） 比较成熟，但遭遇知识瓶颈，就是需要大数据量的 labeled data 的问题。如果问题单纯，features 选取容易，又有海量数据，学习的结果真地可以很接近人工水平。我们曾经做过一项研究（碰巧的是，IBM 也大体同时做了这项研究，不如我们深入，但大同小异，结果也类似），找到了一个很好的应用领域做大小写恢复工作（Case Restoration），效果奇好。过去很多档案文字的电子版本是全大写的，网络上现在还有很多文件也是不分大小写的（譬如很多语音识别出来的材料，标题，还有论坛和电子邮件的非正式文字，等等），这就给自然语言处理和信息抽取造成困难，因为多数语言处理系统 assume 的 input 是正常大小写夹杂的文字，一旦输入文件没有大小写的区别，一切就乱套了。连最基础的词类区分（POS: Part-of-Speech tagging）和专名识别（NE: named entity tagging）都寸步难行（因为最重要的一个识别专名边界的clue就是大写）。为了解决这个问题，以前的研究者就设计两套系统，比如BBN就把大小写的features统统弃置重新训练一套NE系统来对付没有大小写的input, 除了 overhead, 系统性能也下降很多。我们想，如果我们先把大小写恢复，然后再做 NLP 不就成了。这个恢复大小写的任务相对比较单纯，训练文本几乎是无限的，因为网上文字大多是区分大小写的。我们利用这些现成的 &#8220;labeled&#8221; data, 用最简单的HMM算法，学出了一个高效能的系统，解决了这个问题，结果超出预料地好。（Niu, C., W. Li, J. Ding, and R. Rohini. 2004. Orthographic Case Restoration Using Supervised Learning Without Manual Annotation. International Journal of Artificial Intelligence Tools, Vol. 13, No. 1, 2004.）</p>
<p>不过，这样讨巧的事并不多 (一个类似可以讨巧的是某些classification的任务：比如想训练一个给评语分类的系统，就可以上网找到很多客户回馈的记录，这些记录除了文字外，常常还有星号标识，以1个星号表示很差，5星表示很好)。多数任务会遇到 lebeling data 的瓶颈。统计界的共识之一就是，data, data and data. 很多时候，算法的优劣是其次的，主要还是要足够多的 data 和合适的 feature design.  数据量大了，学习的效果自然就好了。所以，labeled data 是 supervised learning 的真正知识瓶颈。我就见过这样的系统，本来是指望随时重新训练以适应新情况的，结果 data 跟不上，成了一个只训练一次的死系统，任何后续的改进都不是经过增加数据重新训练，而是在系统外部打各种补丁。机器学习的优势就失去了。</p>
<p>无须指导的学习（Unsupervised learning） 因此引起学者的兴趣，成为热点，因为所需的训练材料无须标注。在网络世界，有的是 raw data. 对某个对象进行 clustering 就可以用 unsupervised leaning, 出了很多有意思的结果。Clustering 有别于 classification, 前者没有预定一个目标，而是根据features，只要长得象的就归在一起，后者是有预定的 tag set 作为分类的目标。只要设计者心中有个大致的目标，features 选取得当，可以控制 clustering 的结果的粗细，然后去现实世界或使用者中印证clustering的合理性和含义。反正是 unsupervised learning, 不妨多来几次，选取最好的结果作为方向，这样就可以把 clustering 转化成具有广泛应用的 classification. （在人类智能活动中，分类是最常用的技能，也是应用最广泛，相对单纯，比较易于机器学习和模拟成功的任务。大千世界，林林总总，为了把握它，人类第一个要做的就是分类。分类以后，才好缩小范围，集中到某个子领域，钻进去仔细分析。）</p>
<p>正如自如所述，目前很多研究者对所谓 weakly supervised learning 情有独衷，觉得这是一个具有突破性的研究方向。传统的 supervised learning 有知识瓶颈而为人诟病，完全没有指导的学习效率不高，因此尝试利用有限 labeled data 作为种子（seeds）, 怎样引导学习程序一步一步向指定方向去，这是一个充满魅力的路子。这方面的成果令人鼓舞，但总体还在探索阶段，只有少部分课题已经接近临床实用，譬如分类和词典习得（lexicon acqusition）.</p>
<p>机器学习的缺点和局限等有时间再接着谈。先说一点，任务一复杂，ML 就麻烦。遇到复杂的难以分解的任务，基本是没戏，譬如 自然语言的深度结构分析（deep parsing）。而任务相对单纯的浅层分析（shallow parsing），ML 的效果就很好，可以媲美人工系统。</p>
<p>注：转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/立委随笔-机器学习和自然语言处理">http://www.52nlp.cn/立委随笔-机器学习和自然语言处理</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/acl-2010-best-paper-awards' rel='bookmark' title='Permanent Link: ACL 2010 Best Paper Awards'>ACL 2010 Best Paper Awards</a></li>
<li><a href='http://www.52nlp.cn/%e6%9d%a1%e4%bb%b6%e9%9a%8f%e6%9c%ba%e5%9c%ba%e6%96%87%e7%8c%ae%e9%98%85%e8%af%bb%e6%8c%87%e5%8d%97' rel='bookmark' title='Permanent Link: 条件随机场文献阅读指南'>条件随机场文献阅读指南</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第四部分）'>MIT自然语言处理第四讲：标注（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/acl09-acceptance-rates-by-areas' rel='bookmark' title='Permanent Link: ACL09 Full Paper各研究领域的录用情况'>ACL09 Full Paper各研究领域的录用情况</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第二部分）'>MIT自然语言处理第四讲：标注（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/coling-2010-list-of-accepted-papers-oral' rel='bookmark' title='Permanent Link: COLING 2010: List of Accepted Papers (Oral)'>COLING 2010: List of Accepted Papers (Oral)</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-running-two' rel='bookmark' title='Permanent Link: ACL-IJCNLP 2009会议进行时二'>ACL-IJCNLP 2009会议进行时二</a></li>
<li><a href='http://www.52nlp.cn/mit-open-course-natural-language-processing-introduce' rel='bookmark' title='Permanent Link: MIT开放式课程“自然语言处理”介绍'>MIT开放式课程“自然语言处理”介绍</a></li>
<li><a href='http://www.52nlp.cn/most-influential-nlp-papers' rel='bookmark' title='Permanent Link: 最有影响力的自然语言处理论文'>最有影响力的自然语言处理论文</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第一讲：简介和概述（第三部分）'>MIT自然语言处理第一讲：简介和概述（第三部分）</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e9%9a%8f%e7%ac%94-%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0%e5%92%8c%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>机器翻译新闻一则</title>
		<link>http://www.52nlp.cn/%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e6%96%b0%e9%97%bb%e4%b8%80%e5%88%99</link>
		<comments>http://www.52nlp.cn/%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e6%96%b0%e9%97%bb%e4%b8%80%e5%88%99#comments</comments>
		<pubDate>Wed, 30 Dec 2009 13:25:56 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[机器翻译]]></category>
		<category><![CDATA[转载]]></category>
		<category><![CDATA[SMT]]></category>
		<category><![CDATA[东芝]]></category>
		<category><![CDATA[基于规则的机器翻译]]></category>
		<category><![CDATA[统计机器翻译]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=2913</guid>
		<description><![CDATA[　　今天在新浪科技上看到了“东芝开发智能手机英汉日翻译软件”这则新闻，比较感兴趣！虽然“统计机器翻译”这些年如火如荼，但是在商业化的道路上似乎还是老大哥“基于规则的机器翻译”更加成熟。比较感兴趣的是东芝这款产品是如何解决统计机器翻译所占的的资源问题，即使在PC上，SMT所占的资源有时都让人咋舌，所以感觉SMT更适合Google这类在线翻译模式，不知东芝是如何在手机上解决这个问题的。
　　另外，我对文中这段话有点疑问，为什么在三个方向上采用统计机器翻译？又在另外三个方向上采用基于规则的机器翻译？　　　　
　　PC版翻译软件同时使用两种方法，但手机因缺乏足够的处理功能来运行两种方法，统计机器翻译用于英汉互译和汉译日；基于规则机器翻译用于其它。
　　　　　　　　东芝开发智能手机英汉日翻译软件
　　CNET科技资讯网 12月29日国际报道：东芝开发一款三种语言翻译软件，支持语音识别与合成，因该款软件结构紧凑、属于轻量级，可安装在手机中。与现有应用软件的不同之处在于，该软件不是将任务交给网络上功能强大的服务器处理，而是在手机内部执行任务。这样，用户在海外使用时就能更快运行翻译软件，避免潜在的高昂数据漫游费。
　　该软件是东芝在日本销售的PC版翻译软件的瘦身版，可以在日语、英语和汉语之间自由转换。在使用该款软件时，应先使用语音识别决定语言及所说的内容。该软件将采用统计机器翻译(Statistical Machine Translation)和基于规则机器翻译(rule-based machine translation)这两种翻译方法的其中一种进行句子解析，并将之分拆为基本结构后进行翻译，由语音合成引擎输出翻译结果。
　　统计机器翻译根据概率和词序决定句子构造；基于规则机器翻译利用数百个句子和短语的资料遴选出其意思。
　　PC版翻译软件同时使用两种方法，但手机因缺乏足够的处理功能来运行两种方法，统计机器翻译用于英汉互译和汉译日；基于规则机器翻译用于其它。
　　该软件在测试过程中与所有语音识别系统一样容易错误识别部分单词，但整体效果不错。有时该软件不仅能够识别问题，还可以成功翻译句子。
　　东芝在开发该款软件时面临多项挑战。东芝在其TG01智能手机上演示该款翻译软件，该手机采用1GHz高通处理器，运行Windows Mobile操作系统。
原文转自：http://tech.sina.com.cn/roll/2009-12-29/09131193701.shtml
注：转载请注明出处“我爱自然语言处理”：www.52nlp.cn
本文链接地址：http://www.52nlp.cn/机器翻译新闻一则










相关文章:机器翻译新闻一则：SDL公司收购Language Weaver
EuroMatrix与开放精神
SMT经典再回首之Brown90:远见卓识
机器翻译的八大挑战
统计机器翻译中的几篇经典文献
SMT经典再回首之Brown90:统计机器翻译与语音识别
自然语言处理与计算语言学书籍汇总之五：机器翻译
统计机器翻译英雄谱一：Franz Josef Och
Moses中模型训练的并行化问题
第十二届机器翻译峰会和NIST2009机器翻译评测研讨会简介1



相关文章:<ol><li><a href='http://www.52nlp.cn/%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e6%96%b0%e9%97%bb%e4%b8%80%e5%88%99-sdl%e5%85%ac%e5%8f%b8%e6%94%b6%e8%b4%adlanguage-weaver' rel='bookmark' title='Permanent Link: 机器翻译新闻一则：SDL公司收购Language Weaver'>机器翻译新闻一则：SDL公司收购Language Weaver</a></li>
<li><a href='http://www.52nlp.cn/euromatrix-and-spirit-of-openness' rel='bookmark' title='Permanent Link: EuroMatrix与开放精神'>EuroMatrix与开放精神</a></li>
<li><a href='http://www.52nlp.cn/the-foresight-of-smt-classic-brown90' rel='bookmark' title='Permanent Link: SMT经典再回首之Brown90:远见卓识'>SMT经典再回首之Brown90:远见卓识</a></li>
<li><a href='http://www.52nlp.cn/the-eight-major-challenges-of-machine-translation' rel='bookmark' title='Permanent Link: 机器翻译的八大挑战'>机器翻译的八大挑战</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-classic-literature' rel='bookmark' title='Permanent Link: 统计机器翻译中的几篇经典文献'>统计机器翻译中的几篇经典文献</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-and-speech-recognition-of-smt-classic-brown90' rel='bookmark' title='Permanent Link: SMT经典再回首之Brown90:统计机器翻译与语音识别'>SMT经典再回首之Brown90:统计机器翻译与语音识别</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-five-machine-translation' rel='bookmark' title='Permanent Link: 自然语言处理与计算语言学书籍汇总之五：机器翻译'>自然语言处理与计算语言学书籍汇总之五：机器翻译</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-heroe-franz-josef-och' rel='bookmark' title='Permanent Link: 统计机器翻译英雄谱一：Franz Josef Och'>统计机器翻译英雄谱一：Franz Josef Och</a></li>
<li><a href='http://www.52nlp.cn/the-issue-of-parallel-in-moses-model-training' rel='bookmark' title='Permanent Link: Moses中模型训练的并行化问题'>Moses中模型训练的并行化问题</a></li>
<li><a href='http://www.52nlp.cn/%e7%ac%ac%e5%8d%81%e4%ba%8c%e5%b1%8a%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b3%b0%e4%bc%9a%e5%92%8cnist2009%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e8%af%84%e6%b5%8b%e7%ae%80%e4%bb%8b1' rel='bookmark' title='Permanent Link: 第十二届机器翻译峰会和NIST2009机器翻译评测研讨会简介1'>第十二届机器翻译峰会和NIST2009机器翻译评测研讨会简介1</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　今天在新浪科技上看到了“东芝开发智能手机英汉日翻译软件”这则新闻，比较感兴趣！虽然“统计机器翻译”这些年如火如荼，但是在商业化的道路上似乎还是老大哥“基于规则的机器翻译”更加成熟。比较感兴趣的是东芝这款产品是如何解决统计机器翻译所占的的资源问题，即使在PC上，SMT所占的资源有时都让人咋舌，所以感觉SMT更适合Google这类在线翻译模式，不知东芝是如何在手机上解决这个问题的。<span id="more-2913"></span><br />
　　另外，我对文中这段话有点疑问，为什么在三个方向上采用统计机器翻译？又在另外三个方向上采用基于规则的机器翻译？　　　　</p>
<blockquote><p>　　PC版翻译软件同时使用两种方法，但手机因缺乏足够的处理功能来运行两种方法，统计机器翻译用于英汉互译和汉译日；基于规则机器翻译用于其它。</p></blockquote>
<p>　　　　　　　　<strong>东芝开发智能手机英汉日翻译软件</strong></p>
<p>　　CNET科技资讯网 12月29日国际报道：东芝开发一款三种语言翻译软件，支持语音识别与合成，因该款软件结构紧凑、属于轻量级，可安装在手机中。与现有应用软件的不同之处在于，该软件不是将任务交给网络上功能强大的服务器处理，而是在手机内部执行任务。这样，用户在海外使用时就能更快运行翻译软件，避免潜在的高昂数据漫游费。</p>
<p>　　该软件是东芝在日本销售的PC版翻译软件的瘦身版，可以在日语、英语和汉语之间自由转换。在使用该款软件时，应先使用语音识别决定语言及所说的内容。该软件将采用统计机器翻译(Statistical Machine Translation)和基于规则机器翻译(rule-based machine translation)这两种翻译方法的其中一种进行句子解析，并将之分拆为基本结构后进行翻译，由语音合成引擎输出翻译结果。</p>
<p>　　统计机器翻译根据概率和词序决定句子构造；基于规则机器翻译利用数百个句子和短语的资料遴选出其意思。</p>
<p>　　PC版翻译软件同时使用两种方法，但手机因缺乏足够的处理功能来运行两种方法，统计机器翻译用于英汉互译和汉译日；基于规则机器翻译用于其它。</p>
<p>　　该软件在测试过程中与所有语音识别系统一样容易错误识别部分单词，但整体效果不错。有时该软件不仅能够识别问题，还可以成功翻译句子。</p>
<p>　　东芝在开发该款软件时面临多项挑战。东芝在其TG01智能手机上演示该款翻译软件，该手机采用1GHz高通处理器，运行Windows Mobile操作系统。</p>
<p>原文转自：<a href="http://tech.sina.com.cn/roll/2009-12-29/09131193701.shtml"target=_blank>http://tech.sina.com.cn/roll/2009-12-29/09131193701.shtml</a></p>
<p>注：转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/机器翻译新闻一则">http://www.52nlp.cn/机器翻译新闻一则</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e6%96%b0%e9%97%bb%e4%b8%80%e5%88%99-sdl%e5%85%ac%e5%8f%b8%e6%94%b6%e8%b4%adlanguage-weaver' rel='bookmark' title='Permanent Link: 机器翻译新闻一则：SDL公司收购Language Weaver'>机器翻译新闻一则：SDL公司收购Language Weaver</a></li>
<li><a href='http://www.52nlp.cn/euromatrix-and-spirit-of-openness' rel='bookmark' title='Permanent Link: EuroMatrix与开放精神'>EuroMatrix与开放精神</a></li>
<li><a href='http://www.52nlp.cn/the-foresight-of-smt-classic-brown90' rel='bookmark' title='Permanent Link: SMT经典再回首之Brown90:远见卓识'>SMT经典再回首之Brown90:远见卓识</a></li>
<li><a href='http://www.52nlp.cn/the-eight-major-challenges-of-machine-translation' rel='bookmark' title='Permanent Link: 机器翻译的八大挑战'>机器翻译的八大挑战</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-classic-literature' rel='bookmark' title='Permanent Link: 统计机器翻译中的几篇经典文献'>统计机器翻译中的几篇经典文献</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-and-speech-recognition-of-smt-classic-brown90' rel='bookmark' title='Permanent Link: SMT经典再回首之Brown90:统计机器翻译与语音识别'>SMT经典再回首之Brown90:统计机器翻译与语音识别</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-five-machine-translation' rel='bookmark' title='Permanent Link: 自然语言处理与计算语言学书籍汇总之五：机器翻译'>自然语言处理与计算语言学书籍汇总之五：机器翻译</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-heroe-franz-josef-och' rel='bookmark' title='Permanent Link: 统计机器翻译英雄谱一：Franz Josef Och'>统计机器翻译英雄谱一：Franz Josef Och</a></li>
<li><a href='http://www.52nlp.cn/the-issue-of-parallel-in-moses-model-training' rel='bookmark' title='Permanent Link: Moses中模型训练的并行化问题'>Moses中模型训练的并行化问题</a></li>
<li><a href='http://www.52nlp.cn/%e7%ac%ac%e5%8d%81%e4%ba%8c%e5%b1%8a%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b3%b0%e4%bc%9a%e5%92%8cnist2009%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e8%af%84%e6%b5%8b%e7%ae%80%e4%bb%8b1' rel='bookmark' title='Permanent Link: 第十二届机器翻译峰会和NIST2009机器翻译评测研讨会简介1'>第十二届机器翻译峰会和NIST2009机器翻译评测研讨会简介1</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e6%96%b0%e9%97%bb%e4%b8%80%e5%88%99/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>ACL09 Full Paper各研究领域的录用情况</title>
		<link>http://www.52nlp.cn/acl09-acceptance-rates-by-areas</link>
		<comments>http://www.52nlp.cn/acl09-acceptance-rates-by-areas#comments</comments>
		<pubDate>Sat, 12 Sep 2009 11:01:00 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[计算语言学]]></category>
		<category><![CDATA[转载]]></category>
		<category><![CDATA[ACL]]></category>
		<category><![CDATA[ACL09]]></category>
		<category><![CDATA[Full Paper]]></category>
		<category><![CDATA[IJCNLP]]></category>
		<category><![CDATA[水木社区]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=2181</guid>
		<description><![CDATA[　　本文转自水木社区的自然语言处理版，给出的是ACL09 Full Paper中各自然语言处理及计算语言学各研究领域论文的录用情况，包括投稿数、录用数及录用率。
ACL09 acceptance rates by areas
Areas 　　　　　　　　　　Sub   　　　Accepted     　　　Rate
Phonology/morphology,
POS tagging and chunking,
Word Segmentation       　　　　　31      　　　　　8       　　　　　　26%
Syntax and Parsing      　　　　　49     　　　　 14  [...]


相关文章:<ol><li><a href='http://www.52nlp.cn/acl09-full-paper-accepted-details' rel='bookmark' title='Permanent Link: ACL09 Full Paper录用情况'>ACL09 Full Paper录用情况</a></li>
<li><a href='http://www.52nlp.cn/coling-2010-prospect' rel='bookmark' title='Permanent Link: COLING 2010前瞻——规则与统计共舞，语言随计算齐飞'>COLING 2010前瞻——规则与统计共舞，语言随计算齐飞</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-running-one' rel='bookmark' title='Permanent Link: ACL-IJCNLP 2009会议进行时一'>ACL-IJCNLP 2009会议进行时一</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-running-two' rel='bookmark' title='Permanent Link: ACL-IJCNLP 2009会议进行时二'>ACL-IJCNLP 2009会议进行时二</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-six-foreign-book' rel='bookmark' title='Permanent Link: 自然语言处理与计算语言学书籍汇总之六：国外书籍'>自然语言处理与计算语言学书籍汇总之六：国外书籍</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-common-abbreviations-acronyms' rel='bookmark' title='Permanent Link: 自然语言处理及计算语言学常见缩略语'>自然语言处理及计算语言学常见缩略语</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-%e8%af%84%e8%bf%b0%e8%8a%82%e9%80%89' rel='bookmark' title='Permanent Link: ACL-IJCNLP 2009 评述节选'>ACL-IJCNLP 2009 评述节选</a></li>
<li><a href='http://www.52nlp.cn/about-acl-anthology-network' rel='bookmark' title='Permanent Link: ACL Anthology 姊妹篇：ACL Anthology Network'>ACL Anthology 姊妹篇：ACL Anthology Network</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-best-paper-awards' rel='bookmark' title='Permanent Link: ACL-IJCNLP 2009 Best Paper Awards'>ACL-IJCNLP 2009 Best Paper Awards</a></li>
<li><a href='http://www.52nlp.cn/brief-introduction-for-the-research-in-computational-linguistics' rel='bookmark' title='Permanent Link: 计算语言学研究简介'>计算语言学研究简介</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　本文转自水木社区的自然语言处理版，给出的是ACL09 Full Paper中各自然语言处理及计算语言学各研究领域论文的录用情况，包括投稿数、录用数及录用率。<span id="more-2181"></span></p>
<blockquote><p>ACL09 acceptance rates by areas</p></blockquote>
<p><strong>Areas 　　　　　　　　　　Sub   　　　Accepted     　　　Rate</strong></p>
<p>Phonology/morphology,<br />
POS tagging and chunking,<br />
Word Segmentation       　　　　　31      　　　　　8       　　　　　　26%</p>
<p>Syntax and Parsing      　　　　　49     　　　　 14      　　　　　　29%</p>
<p>Semantics       　　　　　　　　　　67      　　　　14     　　　　　　 21%</p>
<p>Discourse, Dialogue<br />
and Pragmatics      　　　　　　　43      　　　　　9       　　　　　　21%</p>
<p>Summarization and Generation    44      　　　　　8       　　　　　　18%</p>
<p>Statistical and<br />
Machine Learning Methods        　　40      　　　　　6       　　　　　　15%</p>
<p>Machine Translation     　　　　　82      　　　　　23      　　　　　　28%</p>
<p>Information Retrieval   　　　　　28      　　　　　4       　　　　　14%</p>
<p>Information Extraction  　　　　49      　　　　　10      　　　　　20%</p>
<p>Sentiment Analysis, Opinion Mining<br />
and Text Classification      　　　　45      　　　　　7       　　　　　16%</p>
<p>Spoken Language Processing      　19      　　　　6       　　　　　　32%</p>
<p>Question Answering      　　　　　　25      　　　　3       　　　　　12%</p>
<p>Text mining and NLP Applications    21      　　　　4       　　　　　19%</p>
<p>Language Resource       　　　　　　26      　　　　　4       　　　　　15%</p>
<p>Total   　　　　　　　　　　　　　569     　　　　120     　　　　　21%</p>
<p>注：转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/acl09-acceptance-rates-by-areas/">http://www.52nlp.cn/acl09-acceptance-rates-by-areas/</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/acl09-full-paper-accepted-details' rel='bookmark' title='Permanent Link: ACL09 Full Paper录用情况'>ACL09 Full Paper录用情况</a></li>
<li><a href='http://www.52nlp.cn/coling-2010-prospect' rel='bookmark' title='Permanent Link: COLING 2010前瞻——规则与统计共舞，语言随计算齐飞'>COLING 2010前瞻——规则与统计共舞，语言随计算齐飞</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-running-one' rel='bookmark' title='Permanent Link: ACL-IJCNLP 2009会议进行时一'>ACL-IJCNLP 2009会议进行时一</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-running-two' rel='bookmark' title='Permanent Link: ACL-IJCNLP 2009会议进行时二'>ACL-IJCNLP 2009会议进行时二</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-six-foreign-book' rel='bookmark' title='Permanent Link: 自然语言处理与计算语言学书籍汇总之六：国外书籍'>自然语言处理与计算语言学书籍汇总之六：国外书籍</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-common-abbreviations-acronyms' rel='bookmark' title='Permanent Link: 自然语言处理及计算语言学常见缩略语'>自然语言处理及计算语言学常见缩略语</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-%e8%af%84%e8%bf%b0%e8%8a%82%e9%80%89' rel='bookmark' title='Permanent Link: ACL-IJCNLP 2009 评述节选'>ACL-IJCNLP 2009 评述节选</a></li>
<li><a href='http://www.52nlp.cn/about-acl-anthology-network' rel='bookmark' title='Permanent Link: ACL Anthology 姊妹篇：ACL Anthology Network'>ACL Anthology 姊妹篇：ACL Anthology Network</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-best-paper-awards' rel='bookmark' title='Permanent Link: ACL-IJCNLP 2009 Best Paper Awards'>ACL-IJCNLP 2009 Best Paper Awards</a></li>
<li><a href='http://www.52nlp.cn/brief-introduction-for-the-research-in-computational-linguistics' rel='bookmark' title='Permanent Link: 计算语言学研究简介'>计算语言学研究简介</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/acl09-acceptance-rates-by-areas/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>基于字标注的中文分词方法</title>
		<link>http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation</link>
		<comments>http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation#comments</comments>
		<pubDate>Sun, 19 Jul 2009 09:35:28 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[中文分词]]></category>
		<category><![CDATA[转载]]></category>
		<category><![CDATA[中文信息处理]]></category>
		<category><![CDATA[字标注]]></category>
		<category><![CDATA[最大熵模型]]></category>
		<category><![CDATA[条件随机场]]></category>
		<category><![CDATA[赵海]]></category>
		<category><![CDATA[黄昌宁]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=1864</guid>
		<description><![CDATA[　　本文节选自黄昌宁老师和赵海博士在07年第3期《中文信息学报》上发表的《中文分词十年回顾》，旨在介绍目前比较流行的基于字标注的中文分词方法。
　　在2002年之前，自动分词方法基本上是基于词(或词典)的，在此基础上可进一步分成基于规则和基于统计的两大类。第一篇基于字标注(Character-based Tagging)的分词论文发表在2002年第一届SIGHAN研讨会上，当时并未引起学界的重视。一年后，Xue在最大熵(Maximum Entropy，ME)模型上实现的基于字的分词系统参加了Bakeoff-2003的评测，在As语料库的封闭测试项目上获得第二名)，然而其OOV 召回率Roov(0.729)却位居榜首。Xue还在CityU语料库的封闭测试中获得第三名，其Roov(0.670)仍然是该项比赛中最高的。尽管在Bakeoff2003中各种分词技术的优劣尚难分仲伯，但既然未登录词对分词精度的影响比分词歧义至少大5倍以上，我们自然看好这种能获致最高OOV召回的分词方法。这一预测果然在Bakeoff2005上得到了证实。
　　基于字标注的分词系统在Bakeoff-2005上崭露头角。其中Low的系统采用最大熵模型，在四项开放测试中夺得三项冠军(AS，CityU，PKU)和一项亚军(MSRA)。Tseng的系统采用条件随机场模型，在四项封闭测试中取得两项冠军(CityU， MSRA)、一项亚军(PKU)和一项季军(AS)。到了Bakeoff-2006，基于字的分词系统已遍地开花。其中，笔者用条件随机场模型实现的基于字标注的分词系统，在参加的六项分词评测中，夺得四个第一(CityU开放，As开放，As封闭，CTB封闭)和两个第三(CTB开放，CityU封闭)。
　　以往的分词方法，无论是基于规则的还是基于统计的，一般都依赖于一个事先编制的词表(词典)。自动分词过程就是通过词表和相关信息来做出词语切分的决策。与此相反，基于字标注的分词方法实际上是构词方法。即把分词过程视为字在字串中的标注问题。由于每个字在构造一个特定的词语时都占据着一个确定的构词位置(即词位)，假如规定每个字最多只有四个构词位置：即B(词首)，M (词中)，E(词尾)和S(单独成词)，那么下面句子(甲)的分词结果就可以直接表示成如(乙)所示的逐字标注形式：
　　(甲)分词结果：／上海／计划／N／本／世纪／末／实现／人均／国内／生产／总值／五千美元／。
　　(乙)字标注形式：上／B海／E计／B划／E N／S 本／s世／B 纪／E 末／S 实／B 现／E 人／B 均／E 国／B 内／E生／B产／E总／B值／E 五／B千／M 美／M 元／E 。／S
　　首先需要说明，这里说到的“字”不只限于汉字。考虑到中文真实文本中不可避免地会包含一定数量的非汉字字符，本文所说的“字”，也包括外文字母、阿拉伯数字和标点符号等字符。所有这些字符都是构词的基本单元。当然，汉字依然是这个单元集合中数量最多的一类字符。
　　把分词过程视为字的标注问题的一个重要优势在于，它能够平衡地看待词表词和未登录词的识别问题。在这种分词技术中，文本中的词表词和未登录词都是用统一的字标注过程来实现的。在学习架构上，既可以不必专门强调词表词信息，也不用专门设计特定的未登录词(如人名、地名、机构名)识别模块。这使得分词系统的设计大大简化。在字标注过程中，所有的字根据预定义的特征进行词位特性的学习，获得一个概率模型。然后，在待分字串上，根据字与字之间的结合紧密程度，得到一个词位的标注结果。最后，根据词位定义直接获得最终的分词结果。总而言之，在这样一个分词过程中，分词成为字重组的简单过程。然而这一简单处理带来的分词结果却是令人满意的。
注：转载请注明出处“我爱自然语言处理”：www.52nlp.cn
本文链接地址：http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation










相关文章:中文分词入门之文献
中文分词入门之字标注法1
中文分词入门之资源
中文分词入门之最大匹配法扩展1
中文分词入门之字标注法2
LDC上免费的中文信息处理资源
中文分词入门之最大匹配法扩展2
中文分词入门之篇外
中文分词入门之最大匹配法
推荐张华平老师的中文分词工具ICTCLAS2010



相关文章:<ol><li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='Permanent Link: 中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='Permanent Link: 中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='Permanent Link: 中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%951' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展1'>中文分词入门之最大匹配法扩展1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952' rel='bookmark' title='Permanent Link: 中文分词入门之字标注法2'>中文分词入门之字标注法2</a></li>
<li><a href='http://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc' rel='bookmark' title='Permanent Link: LDC上免费的中文信息处理资源'>LDC上免费的中文信息处理资源</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展2'>中文分词入门之最大匹配法扩展2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96' rel='bookmark' title='Permanent Link: 中文分词入门之篇外'>中文分词入门之篇外</a></li>
<li><a href='http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法'>中文分词入门之最大匹配法</a></li>
<li><a href='http://www.52nlp.cn/%e6%8e%a8%e8%8d%90%e5%bc%a0%e5%8d%8e%e5%b9%b3%e8%80%81%e5%b8%88%e7%9a%84%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%b7%a5%e5%85%b7-ictclas2010' rel='bookmark' title='Permanent Link: 推荐张华平老师的中文分词工具ICTCLAS2010'>推荐张华平老师的中文分词工具ICTCLAS2010</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　本文节选自黄昌宁老师和赵海博士在07年第3期《中文信息学报》上发表的《中文分词十年回顾》，旨在介绍目前比较流行的基于字标注的中文分词方法。<span id="more-1864"></span></p>
<p>　　在2002年之前，自动分词方法基本上是基于词(或词典)的，在此基础上可进一步分成基于规则和基于统计的两大类。第一篇基于字标注(Character-based Tagging)的分词论文发表在2002年第一届SIGHAN研讨会上，当时并未引起学界的重视。一年后，Xue在最大熵(Maximum Entropy，ME)模型上实现的基于字的分词系统参加了Bakeoff-2003的评测，在As语料库的封闭测试项目上获得第二名)，然而其OOV 召回率Roov(0.729)却位居榜首。Xue还在CityU语料库的封闭测试中获得第三名，其Roov(0.670)仍然是该项比赛中最高的。尽管在Bakeoff2003中各种分词技术的优劣尚难分仲伯，但既然未登录词对分词精度的影响比分词歧义至少大5倍以上，我们自然看好这种能获致最高OOV召回的分词方法。这一预测果然在Bakeoff2005上得到了证实。<br />
　　基于字标注的分词系统在Bakeoff-2005上崭露头角。其中Low的系统采用最大熵模型，在四项开放测试中夺得三项冠军(AS，CityU，PKU)和一项亚军(MSRA)。Tseng的系统采用条件随机场模型，在四项封闭测试中取得两项冠军(CityU， MSRA)、一项亚军(PKU)和一项季军(AS)。到了Bakeoff-2006，基于字的分词系统已遍地开花。其中，笔者用条件随机场模型实现的基于字标注的分词系统，在参加的六项分词评测中，夺得四个第一(CityU开放，As开放，As封闭，CTB封闭)和两个第三(CTB开放，CityU封闭)。<br />
　　以往的分词方法，无论是基于规则的还是基于统计的，一般都依赖于一个事先编制的词表(词典)。自动分词过程就是通过词表和相关信息来做出词语切分的决策。与此相反，基于字标注的分词方法实际上是构词方法。即把分词过程视为字在字串中的标注问题。由于每个字在构造一个特定的词语时都占据着一个确定的构词位置(即词位)，假如规定每个字最多只有四个构词位置：即B(词首)，M (词中)，E(词尾)和S(单独成词)，那么下面句子(甲)的分词结果就可以直接表示成如(乙)所示的逐字标注形式：</p>
<blockquote><p>　　(甲)分词结果：／上海／计划／N／本／世纪／末／实现／人均／国内／生产／总值／五千美元／。<br />
　　(乙)字标注形式：上／B海／E计／B划／E N／S 本／s世／B 纪／E 末／S 实／B 现／E 人／B 均／E 国／B 内／E生／B产／E总／B值／E 五／B千／M 美／M 元／E 。／S</p></blockquote>
<p>　　首先需要说明，这里说到的“字”不只限于汉字。考虑到中文真实文本中不可避免地会包含一定数量的非汉字字符，本文所说的“字”，也包括外文字母、阿拉伯数字和标点符号等字符。所有这些字符都是构词的基本单元。当然，汉字依然是这个单元集合中数量最多的一类字符。<br />
　　把分词过程视为字的标注问题的一个重要优势在于，它能够平衡地看待词表词和未登录词的识别问题。在这种分词技术中，文本中的词表词和未登录词都是用统一的字标注过程来实现的。在学习架构上，既可以不必专门强调词表词信息，也不用专门设计特定的未登录词(如人名、地名、机构名)识别模块。这使得分词系统的设计大大简化。在字标注过程中，所有的字根据预定义的特征进行词位特性的学习，获得一个概率模型。然后，在待分字串上，根据字与字之间的结合紧密程度，得到一个词位的标注结果。最后，根据词位定义直接获得最终的分词结果。总而言之，在这样一个分词过程中，分词成为字重组的简单过程。然而这一简单处理带来的分词结果却是令人满意的。</p>
<p>注：转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation">http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='Permanent Link: 中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='Permanent Link: 中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='Permanent Link: 中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%951' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展1'>中文分词入门之最大匹配法扩展1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952' rel='bookmark' title='Permanent Link: 中文分词入门之字标注法2'>中文分词入门之字标注法2</a></li>
<li><a href='http://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc' rel='bookmark' title='Permanent Link: LDC上免费的中文信息处理资源'>LDC上免费的中文信息处理资源</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展2'>中文分词入门之最大匹配法扩展2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96' rel='bookmark' title='Permanent Link: 中文分词入门之篇外'>中文分词入门之篇外</a></li>
<li><a href='http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法'>中文分词入门之最大匹配法</a></li>
<li><a href='http://www.52nlp.cn/%e6%8e%a8%e8%8d%90%e5%bc%a0%e5%8d%8e%e5%b9%b3%e8%80%81%e5%b8%88%e7%9a%84%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%b7%a5%e5%85%b7-ictclas2010' rel='bookmark' title='Permanent Link: 推荐张华平老师的中文分词工具ICTCLAS2010'>推荐张华平老师的中文分词工具ICTCLAS2010</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation/feed</wfw:commentRss>
		<slash:comments>5</slash:comments>
		</item>
	</channel>
</rss>
