<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>我爱自然语言处理 &#187; 自然语言处理</title>
	<atom:link href="http://www.52nlp.cn/category/nlp/feed" rel="self" type="application/rss+xml" />
	<link>http://www.52nlp.cn</link>
	<description>I Love Natural Language Processing</description>
	<lastBuildDate>Wed, 01 Feb 2012 01:50:03 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
		<item>
		<title>后生可畏，专业新人对《迷思》争论表面和稀泥，其实门儿清</title>
		<link>http://www.52nlp.cn/%e5%90%8e%e7%94%9f%e5%8f%af%e7%95%8f%ef%bc%8c%e4%b8%93%e4%b8%9a%e6%96%b0%e4%ba%ba%e5%af%b9%e3%80%8a%e8%bf%b7%e6%80%9d%e3%80%8b%e4%ba%89%e8%ae%ba%e8%a1%a8%e9%9d%a2%e5%92%8c%e7%a8%80%e6%b3%a5%ef%bc%8c</link>
		<comments>http://www.52nlp.cn/%e5%90%8e%e7%94%9f%e5%8f%af%e7%95%8f%ef%bc%8c%e4%b8%93%e4%b8%9a%e6%96%b0%e4%ba%ba%e5%af%b9%e3%80%8a%e8%bf%b7%e6%80%9d%e3%80%8b%e4%ba%89%e8%ae%ba%e8%a1%a8%e9%9d%a2%e5%92%8c%e7%a8%80%e6%b3%a5%ef%bc%8c#comments</comments>
		<pubDate>Thu, 05 Jan 2012 01:53:47 +0000</pubDate>
		<dc:creator>liwei999</dc:creator>
				<category><![CDATA[自然语言处理]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=4221</guid>
		<description><![CDATA[“专业新人” （early stage researcher）也别被我的夸赞冲昏头脑。门道门道，有门有道。门儿清，不等于道儿清。做到门儿情，只要聪颖和悟性即可，而道儿清要的却是耐性、经验、时间，屡战屡败、屡败屡战的磨练，而且还要有运气。是为冰冻之寒也。 On Thu, Dec 29, 2011 G wrote: &#62;&#62; As you titled yourself early stage researcher, I&#8217;d recommend you a recent dialog on something related - http://blog.sciencenet.cn/home.php?mod=space&#038;uid=362400&#038;do=blog&#038;id=523458. &#62;&#62; He has a point as an experienced practitioner. &#62;&#62; &#8230; <a href="http://www.52nlp.cn/%e5%90%8e%e7%94%9f%e5%8f%af%e7%95%8f%ef%bc%8c%e4%b8%93%e4%b8%9a%e6%96%b0%e4%ba%ba%e5%af%b9%e3%80%8a%e8%bf%b7%e6%80%9d%e3%80%8b%e4%ba%89%e8%ae%ba%e8%a1%a8%e9%9d%a2%e5%92%8c%e7%a8%80%e6%b3%a5%ef%bc%8c">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/acl-hlt-2011%e6%96%87%e7%ab%a0%e5%b7%b2%e5%8f%af%e4%b8%8b%e8%bd%bd' rel='bookmark' title='ACL HLT 2011文章已可下载'>ACL HLT 2011文章已可下载</a></li>
<li><a href='http://www.52nlp.cn/%e5%ba%94%e8%af%a5%e7%ab%8b%e6%b3%95%e7%a6%81%e6%ad%a2%e5%88%86%e8%af%8d%e7%a0%94%e7%a9%b6' rel='bookmark' title='应该立法禁止分词研究 :=)'>应该立法禁止分词研究 :=)</a></li>
<li><a href='http://www.52nlp.cn/cfp-the-7th-young-researchers-roundtable-on-spoken-dialogue-systems' rel='bookmark' title='CFP: The 7th Young Researchers&#8217; Roundtable on Spoken Dialogue Systems'>CFP: The 7th Young Researchers&#8217; Roundtable on Spoken Dialogue Systems</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e7%bf%bb%e8%af%91%e6%8a%80%e6%9c%af%e6%b2%99%e9%be%99%e7%ac%ac%e4%b9%9d%e6%ac%a1%e6%b4%bb%e5%8a%a8' rel='bookmark' title='中文翻译技术沙龙第九次活动'>中文翻译技术沙龙第九次活动</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-seven-other-book' rel='bookmark' title='自然语言处理与计算语言学书籍汇总之七：其他书籍'>自然语言处理与计算语言学书籍汇总之七：其他书籍</a></li>
<li><a href='http://www.52nlp.cn/acl-anthology-computational-linguistics-digital-archive' rel='bookmark' title='ACL Anthology——计算语言学的数字档案'>ACL Anthology——计算语言学的数字档案</a></li>
<li><a href='http://www.52nlp.cn/from-google-research-blog-google-at-acl-2011' rel='bookmark' title='From Google Research Blog: Google at ACL 2011'>From Google Research Blog: Google at ACL 2011</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-five-machine-translation' rel='bookmark' title='自然语言处理与计算语言学书籍汇总之五：机器翻译'>自然语言处理与计算语言学书籍汇总之五：机器翻译</a></li>
<li><a href='http://www.52nlp.cn/acl-wiki-encyclopedia-of-computational-linguistics' rel='bookmark' title='ACL Wiki——计算语言学的百科全书'>ACL Wiki——计算语言学的百科全书</a></li>
<li><a href='http://www.52nlp.cn/%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86%e5%af%b9%e4%ba%8eibm%e8%b6%85%e7%ba%a7%e8%ae%a1%e7%ae%97%e6%9c%ba%e6%b2%83%e6%a3%aewatson%e6%84%8f%e5%91%b3%e7%9d%80%e4%bb%80' rel='bookmark' title='自然语言处理对于IBM超级计算机沃森（Watson）意味着什么？'>自然语言处理对于IBM超级计算机沃森（Watson）意味着什么？</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>“专业新人” （early stage researcher）也别被我的夸赞冲昏头脑。门道门道，有门有道。门儿清，不等于道儿清。做到门儿情，只要聪颖和悟性即可，而道儿清要的却是耐性、经验、时间，屡战屡败、屡败屡战的磨练，而且还要有运气。是为冰冻之寒也。<br />
On Thu, Dec 29, 2011 G wrote:</p>
<p>&gt;&gt; As you titled yourself early stage researcher, I&#8217;d recommend you a recent dialog on something related -</p>
<p>http://blog.sciencenet.cn/home.php?mod=space&#038;uid=362400&#038;do=blog&#038;id=523458.</p>
<p>&gt;&gt; He has a point as an experienced practitioner. </p>
<p>&gt;&gt; I quote him here as overall he is negative to what you are going to work on ［注：指的是切词研究］. And agree with him that it&#8217;s time to shift focus to parsing.<br />
2011/12/29 G<br />
Continuation of the dialog, but with an “early stage researcher”. FYI as I actually recommended your blogs to him in place of my phd thesis <img src='http://www.52nlp.cn/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /> </p>
<p>On Dec 29, 2011, M wrote:<br />
Hi Dr. G,</p>
<p>I just read the Liwei&#8217;s posts and your comments. I partly agree with Liwei&#8217;s arguments. I think It&#8217;s just a different perspective to one of the core problem in NLP, disambiguation. </p>
<p>Usually, beginners take the pipeline architecture as granted, i.e. segmentation&#8211;&gt;POS tagging&#8211;&gt;chunking&#8211;&gt;parsing, etc. However, given the ultimate goal is to predict the overal syntactical structures of sentences, the early stages of disambiguation can be considered as pruning for the exponential number of possible parsing trees. In this sense, Liwei&#8217;s correct. As ambiguity is the enemy, it&#8217;s the system designer&#8217;s choice to decide what architecture to use and/or when to resolve it.</p>
<p>I guess recently many other people in NLP also realized (and might even widely agreed on) the disadvantages of pipeline architectures, which explains why there are many “joint learning of X and Y” papers in past 5 years. In Chinese word segmentation, there are also attempts at doing word segmentation and parsing in one go, which seems to be promising to me.</p>
<p>On the other hand, I think your comments are quite to the point. Current applications mostly utilize very shallow NLP information. So accurate tokenization/POS tagger/chunker have their own values. </p>
<p>As for the interaction between linguistics theory and computational linguistics. I think it&#8217;s quite similar to the relationship between other pairs of science and engineering. Basically, science decides the upper bound of engineering. But given the level of scientific achievements, engineering by itself has a huge space of possibilities. Moreover, in this specific case of our interest, CL itself may serve as a tool to advance linguistics theory, as the corpus based study of linguistics seems to be an inevitable trend.</p>
<p>From: Wei Li<br />
Date: Fri, Dec 30, 2011 </p>
<p>He is indeed a very promising young researcher who is willing to think and air his own opinions.</p>
<p>I did not realize that the effect of my series is that I am against the pipeline architecture.  In fact I am all for it as this is the proven solid architecture for engineering modular development.  Of course, by just reading my recent three posts, it is not surprising that he got that impression.  There is something deeper than that: a balance between pipeline structure and keeping ambiguity untouched principle.  But making the relationship clear is not very easy, but there is a way of doing that based on experiences of “adaptive development” (another important principle).</p>
<p>【相关博文】<br />
专业老友痛批立委《迷思》系列搅乱NLP秩序，立委固执己见</p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/acl-hlt-2011%e6%96%87%e7%ab%a0%e5%b7%b2%e5%8f%af%e4%b8%8b%e8%bd%bd' rel='bookmark' title='ACL HLT 2011文章已可下载'>ACL HLT 2011文章已可下载</a></li>
<li><a href='http://www.52nlp.cn/%e5%ba%94%e8%af%a5%e7%ab%8b%e6%b3%95%e7%a6%81%e6%ad%a2%e5%88%86%e8%af%8d%e7%a0%94%e7%a9%b6' rel='bookmark' title='应该立法禁止分词研究 :=)'>应该立法禁止分词研究 :=)</a></li>
<li><a href='http://www.52nlp.cn/cfp-the-7th-young-researchers-roundtable-on-spoken-dialogue-systems' rel='bookmark' title='CFP: The 7th Young Researchers&#8217; Roundtable on Spoken Dialogue Systems'>CFP: The 7th Young Researchers&#8217; Roundtable on Spoken Dialogue Systems</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e7%bf%bb%e8%af%91%e6%8a%80%e6%9c%af%e6%b2%99%e9%be%99%e7%ac%ac%e4%b9%9d%e6%ac%a1%e6%b4%bb%e5%8a%a8' rel='bookmark' title='中文翻译技术沙龙第九次活动'>中文翻译技术沙龙第九次活动</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-seven-other-book' rel='bookmark' title='自然语言处理与计算语言学书籍汇总之七：其他书籍'>自然语言处理与计算语言学书籍汇总之七：其他书籍</a></li>
<li><a href='http://www.52nlp.cn/acl-anthology-computational-linguistics-digital-archive' rel='bookmark' title='ACL Anthology——计算语言学的数字档案'>ACL Anthology——计算语言学的数字档案</a></li>
<li><a href='http://www.52nlp.cn/from-google-research-blog-google-at-acl-2011' rel='bookmark' title='From Google Research Blog: Google at ACL 2011'>From Google Research Blog: Google at ACL 2011</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-five-machine-translation' rel='bookmark' title='自然语言处理与计算语言学书籍汇总之五：机器翻译'>自然语言处理与计算语言学书籍汇总之五：机器翻译</a></li>
<li><a href='http://www.52nlp.cn/acl-wiki-encyclopedia-of-computational-linguistics' rel='bookmark' title='ACL Wiki——计算语言学的百科全书'>ACL Wiki——计算语言学的百科全书</a></li>
<li><a href='http://www.52nlp.cn/%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86%e5%af%b9%e4%ba%8eibm%e8%b6%85%e7%ba%a7%e8%ae%a1%e7%ae%97%e6%9c%ba%e6%b2%83%e6%a3%aewatson%e6%84%8f%e5%91%b3%e7%9d%80%e4%bb%80' rel='bookmark' title='自然语言处理对于IBM超级计算机沃森（Watson）意味着什么？'>自然语言处理对于IBM超级计算机沃森（Watson）意味着什么？</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e5%90%8e%e7%94%9f%e5%8f%af%e7%95%8f%ef%bc%8c%e4%b8%93%e4%b8%9a%e6%96%b0%e4%ba%ba%e5%af%b9%e3%80%8a%e8%bf%b7%e6%80%9d%e3%80%8b%e4%ba%89%e8%ae%ba%e8%a1%a8%e9%9d%a2%e5%92%8c%e7%a8%80%e6%b3%a5%ef%bc%8c/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>NLP 历史上最大的媒体误导：成语难倒了电脑</title>
		<link>http://www.52nlp.cn/nlp-%e5%8e%86%e5%8f%b2%e4%b8%8a%e6%9c%80%e5%a4%a7%e7%9a%84%e5%aa%92%e4%bd%93%e8%af%af%e5%af%bc%ef%bc%9a%e6%88%90%e8%af%ad%e9%9a%be%e5%80%92%e4%ba%86%e7%94%b5%e8%84%91</link>
		<comments>http://www.52nlp.cn/nlp-%e5%8e%86%e5%8f%b2%e4%b8%8a%e6%9c%80%e5%a4%a7%e7%9a%84%e5%aa%92%e4%bd%93%e8%af%af%e5%af%bc%ef%bc%9a%e6%88%90%e8%af%ad%e9%9a%be%e5%80%92%e4%ba%86%e7%94%b5%e8%84%91#comments</comments>
		<pubDate>Thu, 05 Jan 2012 01:46:07 +0000</pubDate>
		<dc:creator>liwei999</dc:creator>
				<category><![CDATA[自然语言处理]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=4215</guid>
		<description><![CDATA[NLP 最早的实践是机器翻译，在电脑的神秘光环下，被认为是 模拟或挑战 人类智能活动的机器翻译自然成为媒体报道的热点。其中有这么一个广为流传的机器翻译笑话，为媒体误导之最： 说的是有记者测试机器翻译系统，想到用这么一个出自圣经的成语： The spirit is willing, but the flesh is weak (心有余而力不足) 翻译成俄语后再翻译回英语就是： The whiskey is alright, but the meat is rotten（威士忌没有问题，但肉却腐烂了） 这大概是媒体上流传最广的笑话了。很多年来，这个经典笑话不断被添油加醋地重复着，成为NLP的标准笑柄。 然而，自然语言技术中没有比成语更加简单的问题了。成语是NLP难点的误解全然是外行人的臆测，这种臆测由于两个因素使得很多不求甚解的人轻信了。其一是NLP系统的成语词典不够全面的时候造成的类似上述的“笑话”，似乎暴露了机器的愚蠢，殊不知这样的“错误”是系统最容易 debug 的：补全词典即可。因为成语 by definition 是可列举的（listable），补全成语的办法可以用人工，也可以从语料库中自动习得，无论何种方式，都是 tractable 的任务。语言学告诉我们，成语的特点在于其不具有语义的可分解性（no/little semantic compositianlity），必须作为整体来记忆（存贮），这就决定了它的非开放性（可列举）。其二是对于机器“理解”（实际是一种“人工智能”）的误解，以为人理解有困难的部分也必然是机器理解的难点，殊不知两种“理解”根本就不是一回事。很多成语背后有历史故事，需要历史知识才可以真正理解其含义，而机器是没有背景知识的，由此便断言，成语是NLP的瓶颈。 事实是，对于 NLP，可以说，识别了就是理解了，而识别可枚举的表达法不过是记忆而已，说到底是存储量的问题。可是确实有人天真到以为由冷冰冰的无机材料制作的“电脑”真地具有人脑那样的自主理解 能力/机制。  引用 &#8230; <a href="http://www.52nlp.cn/nlp-%e5%8e%86%e5%8f%b2%e4%b8%8a%e6%9c%80%e5%a4%a7%e7%9a%84%e5%aa%92%e4%bd%93%e8%af%af%e5%af%bc%ef%bc%9a%e6%88%90%e8%af%ad%e9%9a%be%e5%80%92%e4%ba%86%e7%94%b5%e8%84%91">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e8%af%ad%e4%b9%89%e7%bd%91%e6%96%b0%e9%97%bb%e4%b8%80%e5%88%99-google%e6%94%b6%e8%b4%ad%e8%af%ad%e4%b9%89%e7%bd%91%e5%85%ac%e5%8f%b8metaweb' rel='bookmark' title='语义网新闻一则：Google收购语义网公司Metaweb'>语义网新闻一则：Google收购语义网公司Metaweb</a></li>
<li><a href='http://www.52nlp.cn/%e7%ac%ac%e4%b8%80%e7%a0%96' rel='bookmark' title='第一砖，混在NLP！'>第一砖，混在NLP！</a></li>
<li><a href='http://www.52nlp.cn/acl-2010-paper-%e5%9b%bd%e5%86%85%e7%a0%94%e7%a9%b6%e5%8d%95%e4%bd%8d%e5%bd%95%e7%94%a8%e6%83%85%e5%86%b5' rel='bookmark' title='ACL 2010 Paper国内研究单位录用情况'>ACL 2010 Paper国内研究单位录用情况</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-running-two' rel='bookmark' title='ACL-IJCNLP 2009会议进行时二'>ACL-IJCNLP 2009会议进行时二</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-common-abbreviations-acronyms' rel='bookmark' title='自然语言处理及计算语言学常见缩略语'>自然语言处理及计算语言学常见缩略语</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%80%e7%bc%98%e8%b5%b7' rel='bookmark' title='Beautiful Data-统计语言模型的应用一：缘起'>Beautiful Data-统计语言模型的应用一：缘起</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-company-metaweb' rel='bookmark' title='自然语言处理公司巡礼六：Metaweb'>自然语言处理公司巡礼六：Metaweb</a></li>
<li><a href='http://www.52nlp.cn/coling-2010-%e6%96%87%e7%ab%a0%e5%b7%b2%e5%8f%af%e4%b8%8b%e8%bd%bd' rel='bookmark' title='Coling 2010 文章已可下载'>Coling 2010 文章已可下载</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<div>
<div><span style="font-size: medium">NLP 最早的实践是机器翻译，在电脑的神秘光环下，被认为是 模拟或挑战 人类智能活动的机器翻译自然成为媒体报道的热点。其中有这么一个广为流传的机器翻译笑话，为媒体误导之最：</span></div>
<div><span style="font-size: medium"><br />
</span></div>
<div><span style="font-size: medium">说的是有记者测试机器翻译系统，想到用这么一个出自圣经的成语：</span></div>
<div><span style="font-size: medium"><br />
</span></div>
<div><span style="font-size: medium">The spirit is willing, but the flesh is weak (心有余而力不足)</span></div>
<div><span style="font-size: medium"><br />
</span></div>
<div><span style="font-size: medium">翻译成俄语后再翻译回英语就是：</span></div>
<div><span style="font-size: medium"><br />
</span></div>
<div><span style="font-size: medium">The whiskey is alright, but the meat is rotten（威士忌没有问题，但肉却腐烂了）</span></div>
<div><span style="font-size: medium"><br />
</span></div>
</div>
<div><span style="font-size: medium">这大概是媒体上流传最广的笑话了。很多年来，这个经典笑话不断被添油加醋地重复着，成为NLP的标准笑柄。</span></div>
<div><span style="font-size: medium"><br />
</span></div>
<div><span style="font-size: medium">然而，自然语言技术中没有比成语更加简单的问题了。成语是NLP难点的误解全然是外行人的臆测，这种臆测由于两个因素使得很多不求甚解的人轻信了。其一是NLP系统的成语词典不够全面的时候造成的类似上述的“笑话”，似乎暴露了机器的愚蠢，殊不知这样的“错误”是系统最容易 debug 的：补全词典即可。因为成语 by definition 是可列举的（listable），补全成语的办法可以用人工，也可以从语料库中自动习得，无论何种方式，都是 tractable 的任务。语言学告诉我们，成语的特点在于其不具有语义的可分解性（no/little semantic compositianlity），必须作为整体来记忆（存贮），这就决定了它的非开放性（可列举）。其二是对于机器“理解”（实际是一种“人工智能”）的误解，以为人理解有困难的部分也必然是机器理解的难点，殊不知两种“理解”根本就不是一回事。很多成语背后有历史故事，需要历史知识才可以真正理解其含义，而机器是没有背景知识的，由此便断言，成语是NLP的瓶颈。</span></div>
<div><span style="font-size: medium"><br />
事实是，对于 NLP，可以说，识别了就是理解了，而识别可枚举的表达法不过是记忆而已，说到底是存储量的问题。可是确实有人天真到以为由冷冰冰的无机材料制作的“电脑”真地具有人脑那样的自主理解 能力/机制。 </span></div>
<div>
<div><span style="font-size: medium"><br />
</span></div>
<blockquote>
<div><span style="font-size: medium">引用</span></div>
<div><span style="color: #800000;font-size: medium">成语的本质是记忆，<span style="text-decoration: underline">凡记忆电脑是大拿，人脑是豆腐</span>。</span></div>
<div><span style="font-size: medium"><span style="color: #800000"><br />
当然要大词库，无论何种方式 建立，只要想做就可以做，因此不是问题。</p>
<p>所谓自然语言“理解”（NLU），就是把 open expressions 分解成词典单位（包括成语）的关系组合（术语叫 semantic compositionality）。凡事到了词典层，理解就终结了。无论semantic representation 如何摆弄，那都是系统内部的事情（system internal），与理解的本质无关。</span><br />
</span></div>
</blockquote>
<div><span style="color: #333333;font-family: Verdana;font-size: medium"><br />
</span></div>
<div><span style="font-size: medium"><span style="color: #333333;font-family: Verdana">摘自: 【<a href="http://blog.sciencenet.cn/home.php?mod=space&amp;uid=362400&amp;do=blog&amp;id=524183" target="_blank">立委随笔：成语从来不是问题</a></span>】</span></div>
</div>
<div><span style="font-size: medium"><br />
</span></div>
<div><span style="font-size: medium">【后记】为写这篇短文，上网查阅这个广为流传的笑话的原始出处，结果发现了冯志伟老师有专文讲述这个故事的来历和变迁，根据冯老师的考证，这个笑话是杜撰出来的（见 《冯志伟：<a href="http://www.lingviko.net/feng/ill-posed.pdf" target="_blank">一个关于<em>机器翻译</em>的史料错误</a>》）。本文的主旨是澄清这一误解。杜撰与否并不重要，重要的是这个笑话的娱乐性以及媒体与大众对于娱乐的追求使得一种似是而非的误解经久不衰，得以深入人心。</span></div>
<div><span style="font-size: medium"><br />
</span></div>
<div></div>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e8%af%ad%e4%b9%89%e7%bd%91%e6%96%b0%e9%97%bb%e4%b8%80%e5%88%99-google%e6%94%b6%e8%b4%ad%e8%af%ad%e4%b9%89%e7%bd%91%e5%85%ac%e5%8f%b8metaweb' rel='bookmark' title='语义网新闻一则：Google收购语义网公司Metaweb'>语义网新闻一则：Google收购语义网公司Metaweb</a></li>
<li><a href='http://www.52nlp.cn/%e7%ac%ac%e4%b8%80%e7%a0%96' rel='bookmark' title='第一砖，混在NLP！'>第一砖，混在NLP！</a></li>
<li><a href='http://www.52nlp.cn/acl-2010-paper-%e5%9b%bd%e5%86%85%e7%a0%94%e7%a9%b6%e5%8d%95%e4%bd%8d%e5%bd%95%e7%94%a8%e6%83%85%e5%86%b5' rel='bookmark' title='ACL 2010 Paper国内研究单位录用情况'>ACL 2010 Paper国内研究单位录用情况</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-running-two' rel='bookmark' title='ACL-IJCNLP 2009会议进行时二'>ACL-IJCNLP 2009会议进行时二</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-common-abbreviations-acronyms' rel='bookmark' title='自然语言处理及计算语言学常见缩略语'>自然语言处理及计算语言学常见缩略语</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%80%e7%bc%98%e8%b5%b7' rel='bookmark' title='Beautiful Data-统计语言模型的应用一：缘起'>Beautiful Data-统计语言模型的应用一：缘起</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-company-metaweb' rel='bookmark' title='自然语言处理公司巡礼六：Metaweb'>自然语言处理公司巡礼六：Metaweb</a></li>
<li><a href='http://www.52nlp.cn/coling-2010-%e6%96%87%e7%ab%a0%e5%b7%b2%e5%8f%af%e4%b8%8b%e8%bd%bd' rel='bookmark' title='Coling 2010 文章已可下载'>Coling 2010 文章已可下载</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/nlp-%e5%8e%86%e5%8f%b2%e4%b8%8a%e6%9c%80%e5%a4%a7%e7%9a%84%e5%aa%92%e4%bd%93%e8%af%af%e5%af%bc%ef%bc%9a%e6%88%90%e8%af%ad%e9%9a%be%e5%80%92%e4%ba%86%e7%94%b5%e8%84%91/feed</wfw:commentRss>
		<slash:comments>9</slash:comments>
		</item>
		<item>
		<title>初学者报道(3)  CRF 中文分词解码过程理解</title>
		<link>http://www.52nlp.cn/%e5%88%9d%e5%ad%a6%e8%80%85%e6%8a%a5%e9%81%933-crf-%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e8%a7%a3%e7%a0%81%e8%bf%87%e7%a8%8b%e7%90%86%e8%a7%a3</link>
		<comments>http://www.52nlp.cn/%e5%88%9d%e5%ad%a6%e8%80%85%e6%8a%a5%e9%81%933-crf-%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e8%a7%a3%e7%a0%81%e8%bf%87%e7%a8%8b%e7%90%86%e8%a7%a3#comments</comments>
		<pubDate>Fri, 30 Dec 2011 05:19:02 +0000</pubDate>
		<dc:creator>ricky</dc:creator>
				<category><![CDATA[中文分词]]></category>
		<category><![CDATA[条件随机场]]></category>
		<category><![CDATA[自然语言处理]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=4171</guid>
		<description><![CDATA[好久没有来写文章了，这段时间我研究了一下CRF，也找人请教过，下面写下自己的一些理解，在网络上也找过CRF的资料，大多为英文，对于解码的描述，就说用viterbe 实现，如何实现，却很少提及，以下为我的理解，如有错误欢迎指正，这样可以帮助我理解，先行谢过！ 一，标记问题解决分词：就是将 词语开始和结束的字标记出来，就能对一个句子完成分词，假设使用两个标记B (开始)，E(结束)对句子进行处理，如：“民主是普世价值”，民B主E是B普B世E价B值E, 这样标记明确，分词结果就明确了。 二，如何找到最好的标记结果：知道如何用标记的方式解决分词，那么怎么为一个句子找到一个最好的标记序列呢，CRF为这样的问题提供了一个解决方案，对于输入序列X1,X2&#8230;Xn(对于分词，就是那个句子)，求这个输入序列条件下 某个 标记序列(Y1,Y2&#8230;Yn)的概率 极值。 三，解码过程： 这里用一个例子来说明，对于CRF的原理，我不做详述，我是半吊子，怕解释不好，只说一下我理解的解码过程。 CRF的公式：P(y&#124;x,λ)=Σj λjFj(y,x)/Z(x)     //这里的j都是下标 先说问题： 使用4标记，B-开始，O-单独成词，M-词语中间的字，E-结束， 特征：一元特征，V-1 当前字的前一个字，V0当前字，V1当前字的后一个字 二元特征，各标记间的转移特征 句子如下： 民   主   是   普   世   价   值 B     B    B    B   B    B    B O    O &#8230; <a href="http://www.52nlp.cn/%e5%88%9d%e5%ad%a6%e8%80%85%e6%8a%a5%e9%81%933-crf-%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e8%a7%a3%e7%a0%81%e8%bf%87%e7%a8%8b%e7%90%86%e8%a7%a3">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e5%88%9d%e5%ad%a6%e8%80%85%e6%8a%a5%e9%81%93%ef%bc%882%ef%bc%89%ef%bc%9a%e5%ae%9e%e7%8e%b0-1-gram%e5%88%86%e8%af%8d%e7%ae%97%e6%b3%95' rel='bookmark' title='初学者报道（2）：实现 1-gram分词算法'>初学者报道（2）：实现 1-gram分词算法</a></li>
<li><a href='http://www.52nlp.cn/stardict-main-function-brief-description' rel='bookmark' title='stardict2.4.8的main函数简要说明与注释'>stardict2.4.8的main函数简要说明与注释</a></li>
<li><a href='http://www.52nlp.cn/%e5%9f%ba%e4%ba%8e%e5%93%88%e5%b8%8c%e8%a1%a8%e5%92%8c%e4%ba%8c%e5%8f%89%e6%a0%91%e7%9a%84%e8%af%8d%e5%85%b8%e7%a0%94%e7%a9%b6%e4%b8%80' rel='bookmark' title='基于哈希表和二叉树的词典研究(一)'>基于哈希表和二叉树的词典研究(一)</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-second-part' rel='bookmark' title='MIT自然语言处理第一讲：简介和概述（第二部分）'>MIT自然语言处理第一讲：简介和概述（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part' rel='bookmark' title='MIT自然语言处理第二讲：单词计数（第四部分）'>MIT自然语言处理第二讲：单词计数（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/%e6%9d%a1%e4%bb%b6%e9%9a%8f%e6%9c%ba%e5%9c%ba%e6%96%87%e7%8c%ae%e9%98%85%e8%af%bb%e6%8c%87%e5%8d%97' rel='bookmark' title='条件随机场文献阅读指南'>条件随机场文献阅读指南</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><span style="font-size: small;color: #0000ff">好久没有来写文章了，这段时间我研究了一下CRF，也找人请教过，下面写下自己的一些理解，在网络上也找过CRF的资料，大多为英文，对于解码的描述，就说用viterbe 实现，如何实现，却很少提及，以下为我的理解，如有错误欢迎指正，这样可以帮助我理解，先行谢过！</span></p>
<p>一，标记问题解决分词：就是将 词语开始和结束的字标记出来，就能对一个句子完成分词，假设使用两个标记B (开始)，E(结束)对句子进行处理，如：“民主是普世价值”，民B主E是B普B世E价B值E, 这样标记明确，分词结果就明确了。</p>
<p>二，如何找到最好的标记结果：知道如何用标记的方式解决分词，那么怎么为一个句子找到一个最好的标记序列呢，CRF为这样的问题提供了一个解决方案，对于输入序列X1,X2&#8230;Xn(对于分词，就是那个句子)，求这个输入序列条件下 某个 标记序列(Y1,Y2&#8230;Yn)的概率 极值。</p>
<p>三，解码过程：</p>
<p>这里用一个例子来说明，对于CRF的原理，我不做详述，我是半吊子，怕解释不好，只说一下我理解的解码过程。</p>
<p>CRF的公式：P(y|x,λ)=Σj λjFj(y,x)/Z(x)     //这里的j都是下标</p>
<p>先说问题：</p>
<p>使用4标记，B-开始，O-单独成词，M-词语中间的字，E-结束，</p>
<p>特征：一元特征，V-1 当前字的前一个字，V0当前字，V1当前字的后一个字</p>
<p>二元特征，各标记间的转移特征</p>
<p>句子如下：</p>
<p>民   主   是   普   世   价   值</p>
<p>B     B    B    B   B    B    B</p>
<p>O    O   O    O   O    O     O</p>
<p>M   M   M   M   M   M   M</p>
<p>E     E    E    E    E    E     E</p>
<p>Viterbe解码就是在以上由标记组成的 数组中 搜索一条 最优的路径。</p>
<p>对于每一列的每一个标记，我们都要计算到达该标记的分数，这个分数由三部分组成，它本身的一元特征权重W，它前面一个字标记的 路径分数PreScore，前面一个字标记到当前标记转移特征权重TransW，</p>
<p>1. 计算第一列的分数(score),对于，‘民’来说，我们要算 B,O,M,E的Score，因为是第一列，所以PreSocre和TransW都是0，就不用计算，只需要计算自己的一元特征的权重：</p>
<p>对于标记，B，我们计算它的Score，记为S1B=W1B=w(null,民,B)+w(民,B)+w(民,B,主)  //这些特征的意思是： (null，民，B)，当前字为 ‘民’标记为B，前面一个字为空，(民,B):当前字为‘民’，标记为B，(民,B,主)：当前字为&#8217;民&#8217;，标记为B，当前字的后一个字为‘主’。特征的权重都是在训练时得到的。</p>
<p>对于标记，O，M，E，一样要计算W1O，W1M，W1E,从而得到分数S1O，S1M，S1E</p>
<p>2.对于第二列，首先要计算是每个标记的 一元权重W2B，W2O,W2M,W2E.</p>
<p>对于B，到达该标记的最大分数为：S2B=Max((v(BB)+S1B),(v(OB)+S1O),(v(MB)+S1M),(v(EB)+S1E))+W2B，其中v(BB)等为B到B的转移特征的权重。这个也是由训练得到的。同样对于第二列的O,M,E也要计算S2O，S2M，S2E</p>
<p>3.一直计算到最后一列，‘值’字的所有标记，得到S7B，S7O，S7M，S7E.比较这四个值中的最大值，即为最优路径的分数，然后以该值的标记点为始点 回溯得到最优路径（这里在计算过程中，要记录到达该标记的前一个标记，用于回溯）</p>
<p>终于写好！:)</p>
<p>&nbsp;</p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e5%88%9d%e5%ad%a6%e8%80%85%e6%8a%a5%e9%81%93%ef%bc%882%ef%bc%89%ef%bc%9a%e5%ae%9e%e7%8e%b0-1-gram%e5%88%86%e8%af%8d%e7%ae%97%e6%b3%95' rel='bookmark' title='初学者报道（2）：实现 1-gram分词算法'>初学者报道（2）：实现 1-gram分词算法</a></li>
<li><a href='http://www.52nlp.cn/stardict-main-function-brief-description' rel='bookmark' title='stardict2.4.8的main函数简要说明与注释'>stardict2.4.8的main函数简要说明与注释</a></li>
<li><a href='http://www.52nlp.cn/%e5%9f%ba%e4%ba%8e%e5%93%88%e5%b8%8c%e8%a1%a8%e5%92%8c%e4%ba%8c%e5%8f%89%e6%a0%91%e7%9a%84%e8%af%8d%e5%85%b8%e7%a0%94%e7%a9%b6%e4%b8%80' rel='bookmark' title='基于哈希表和二叉树的词典研究(一)'>基于哈希表和二叉树的词典研究(一)</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-second-part' rel='bookmark' title='MIT自然语言处理第一讲：简介和概述（第二部分）'>MIT自然语言处理第一讲：简介和概述（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part' rel='bookmark' title='MIT自然语言处理第二讲：单词计数（第四部分）'>MIT自然语言处理第二讲：单词计数（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/%e6%9d%a1%e4%bb%b6%e9%9a%8f%e6%9c%ba%e5%9c%ba%e6%96%87%e7%8c%ae%e9%98%85%e8%af%bb%e6%8c%87%e5%8d%97' rel='bookmark' title='条件随机场文献阅读指南'>条件随机场文献阅读指南</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e5%88%9d%e5%ad%a6%e8%80%85%e6%8a%a5%e9%81%933-crf-%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e8%a7%a3%e7%a0%81%e8%bf%87%e7%a8%8b%e7%90%86%e8%a7%a3/feed</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>专业老友痛批立委《迷思》系列搅乱NLP秩序，立委固执己见</title>
		<link>http://www.52nlp.cn/%e4%b8%93%e4%b8%9a%e8%80%81%e5%8f%8b%e7%97%9b%e6%89%b9%e7%ab%8b%e5%a7%94%e3%80%8a%e8%bf%b7%e6%80%9d%e3%80%8b%e7%b3%bb%e5%88%97%e6%90%85%e4%b9%b1nlp%e7%a7%a9%e5%ba%8f%ef%bc%8c%e7%ab%8b%e5%a7%94</link>
		<comments>http://www.52nlp.cn/%e4%b8%93%e4%b8%9a%e8%80%81%e5%8f%8b%e7%97%9b%e6%89%b9%e7%ab%8b%e5%a7%94%e3%80%8a%e8%bf%b7%e6%80%9d%e3%80%8b%e7%b3%bb%e5%88%97%e6%90%85%e4%b9%b1nlp%e7%a7%a9%e5%ba%8f%ef%bc%8c%e7%ab%8b%e5%a7%94#comments</comments>
		<pubDate>Thu, 29 Dec 2011 15:59:51 +0000</pubDate>
		<dc:creator>liwei999</dc:creator>
				<category><![CDATA[自然语言处理]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=4204</guid>
		<description><![CDATA[G 是资深同行专业老友很多年了，常与立委有专业内外的交流。都是过来人，激烈交锋、碰撞出火是常有的事儿。 昨天给他邮去《迷思》系列三则，他即打电话说：“好家伙，你这是惟恐天下不乱啊。看了《迷思》，我就气不打一处来。你这是对中文NLP全盘否定啊，危言耸听，狂放颠覆性言论。偏激，严重偏激，而且误导。虽然我知道你在说什么，你想说什么，对于刚入门的新人，你的《迷思》有误导。” 听到他气不打一处来，我特别兴奋：“你尽管批判，砸砖。我为我说的话负责，每一个论点都是多年琢磨和经验以后的自然流露，绝对可以站住。对于年轻人，他们被各种’迷思‘误导很多了，我最多是矫枉过正，是对迷思的反弹，绝对不是误导。” 现剪辑摘录批判与回应，为历史留下足迹 。内行看门道，外行看热闹，欢迎围观。 2011/12/28 G The third one is more to the point - 严格说起来，这不能算是迷思，而应该算是放之四海而皆准的“多余的话” Frankly, the first two are 标题党 to me. Most “supporting evidence” is wrong. Well, I think I know what you were trying to &#8230; <a href="http://www.52nlp.cn/%e4%b8%93%e4%b8%9a%e8%80%81%e5%8f%8b%e7%97%9b%e6%89%b9%e7%ab%8b%e5%a7%94%e3%80%8a%e8%bf%b7%e6%80%9d%e3%80%8b%e7%b3%bb%e5%88%97%e6%90%85%e4%b9%b1nlp%e7%a7%a9%e5%ba%8f%ef%bc%8c%e7%ab%8b%e5%a7%94">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第二部分）'>MIT自然语言处理第四讲：标注（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/hmm-application-in-natural-language-processing-one-part-of-speech-tagging-1' rel='bookmark' title='HMM在自然语言处理中的应用一：词性标注1'>HMM在自然语言处理中的应用一：词性标注1</a></li>
<li><a href='http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation' rel='bookmark' title='基于字标注的中文分词方法'>基于字标注的中文分词方法</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-first-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第一部分）'>MIT自然语言处理第四讲：标注（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/hmm-application-in-natural-language-processing-one-part-of-speech-tagging-6' rel='bookmark' title='HMM在自然语言处理中的应用一：词性标注6'>HMM在自然语言处理中的应用一：词性标注6</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part' rel='bookmark' title='MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第四部分）'>MIT自然语言处理第四讲：标注（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-open-course-natural-language-processing-introduce' rel='bookmark' title='MIT开放式课程“自然语言处理”介绍'>MIT开放式课程“自然语言处理”介绍</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-third-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第三部分）'>MIT自然语言处理第四讲：标注（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/acl-2010-paper-%e5%9b%bd%e5%86%85%e7%a0%94%e7%a9%b6%e5%8d%95%e4%bd%8d%e5%bd%95%e7%94%a8%e6%83%85%e5%86%b5' rel='bookmark' title='ACL 2010 Paper国内研究单位录用情况'>ACL 2010 Paper国内研究单位录用情况</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>G 是资深同行专业老友很多年了，常与立委有专业内外的交流。都是过来人，激烈交锋、碰撞出火是常有的事儿。</p>
<div></div>
<div>昨天给他邮去《迷思》系列三则，他即打电话说：“好家伙，你这是惟恐天下不乱啊。看了《迷思》，我就气不打一处来。你这是对中文NLP全盘否定啊，危言耸听，狂放颠覆性言论。偏激，严重偏激，而且误导。虽然我知道你在说什么，你想说什么，对于刚入门的新人，你的《迷思》有误导。”</div>
<div></div>
<div>听到他气不打一处来，我特别兴奋：“你尽管批判，砸砖。我为我说的话负责，每一个论点都是多年琢磨和经验以后的自然流露，绝对可以站住。对于年轻人，他们被各种’迷思‘误导很多了，我最多是矫枉过正，是对迷思的反弹，绝对不是误导。”</div>
<div></div>
<div>现剪辑摘录批判与回应，为历史留下足迹 。内行看门道，外行看热闹，欢迎围观。</div>
<div></div>
<div>2011/12/28 G</p>
<blockquote>
<div>
<div>The third one is more to the point - 严格说起来，这不能算是迷思，而应该算是放之四海而皆准的“多余的话”</div>
<div></div>
<div>Frankly, the first two are 标题党 to me. Most “supporting evidence” is wrong.</div>
<div></div>
<div>Well, I think I know what you were trying to say. But to most people I believe you are misleading.</div>
<div></div>
</div>
</blockquote>
<div></div>
</div>
<div><span style="color: #800000">No, I was not misleading, this is 矫枉过正 on purpose.  </span></div>
<div>
<div></div>
<div></div>
<blockquote>
<div>
<div>At least I think you should explain a bit more, and carefully pick up your examples.</div>
<div></div>
<div>Take one example. Tokenizing Peoples Republic of China is routinely done by regular expression (rule based) based on capitalization, apostrophe and proposition (symbolic evidences), but NOT using dictionary.</div>
</div>
</blockquote>
<div></div>
</div>
<div><span style="color: #800000">that is not the point.  yes, maybe I should have chosen a non-Name example (“interest rate” 利率 is a better example for both Chinese and English), but the point is that closed compounding can (and should) be looked up by lexicons rather than using rules.</span></div>
<div>
<div></div>
</div>
<div>
<blockquote>
<div>
<div></div>
<div>What you are referring to I guess is named entity recognition. Even that chinese and English could be significantly different.</div>
<div></div>
</div>
</blockquote>
<div></div>
</div>
<div><span style="color: #800000">No I was not talking about NE, that is a special topic by itself.  I consider that to be a low-level, solved problem, and do not plan to re-invent the wheel.  I will just pick an off-shelf API to use for NE, tolerating its imperfection.</span></div>
<div>
<div></div>
<blockquote>
<div>
<div>I wouldn&#8217;t be surprised if you don&#8217;t do tokenization, as you can well combine that in overall parsing. But to applications like Baidu search, tokenization is the end of text processing and is a must-have.</div>
<div></div>
</div>
</blockquote>
<div></div>
</div>
<div><span style="color: #800000">Chunking of words into phrases (syntax) are by nature no different from chunking of morphemes (characters) into words (morphology).  Parsing with no “word segmentation” is thus possible.  </span></div>
<div><span style="color: #800000"><br />
</span></div>
<div><span style="color: #800000">In existing apps like search engines, no big players are using parsing and deep NLP, yet (they will: only a time issue), so lexical features from large lexicons may not be necessary.  As a result, they may prefer to adopt a light-weight tokenization without lexicons.  That is a different case from what I am addressing here.   NLP discussed in my post series assumes the need for developing a parser as its core. </span></div>
<div>
<div></div>
<blockquote>
<div>
<div>Your attack to tagging is also misleading. You basically say if a word has two categories, just tag it both without further processing. That is tagging already.</div>
</div>
</blockquote>
<div></div>
</div>
<div><span style="color: #800000">That is not (POS) tagging in the traditional sense: the traditional sense of tagging is deterministic and relies on context.  Lexical feature assignment from lexical lookup is not tagging in the traditional sense.  If you want to change the definition, then that is off the topic.</span></div>
<div>
<div></div>
<div></div>
<blockquote>
<div>
<div>What others do is merely one step forward, saying tag-a has 90% correct while tag-b 10% chance. I did rule based parser before and I find that is really helpful (at least in terms of speed). I try the high chance first. If it making sense, I just take it. If not, I come back trying the other. Let me know if you don&#8217;t do something like that.</div>
<div></div>
</div>
</blockquote>
<div></div>
</div>
<div><span style="color: #800000">Parsing can go a long way without context-based POS tagging.  But note that at the end I proposed 一步半 approach, i.e. I can do limited, simple context-based tagging for convenience&#8217; sake.  The later development is adaptive and in principle does not rely on tagging.</span></div>
<div>
<div></div>
<blockquote>
<div>
<div>Note here I am not talking about 兼语词 which is essentially another unique tag with its own properties. I know this is not 100% accurate but I see it in chinese something like 动名词 in English.</div>
<div></div>
</div>
</blockquote>
<div></div>
</div>
<div><span style="color: #800000">In fact, I do not see that as 兼语词, but for the sake of explanation of the phenomena, I used that term (logically equivalent, but to elaborate on that clearly requires too much space).  In my actual system, 学习 is a verb, only a verb (or logical verb).  </span></div>
<div>
<div></div>
<div></div>
<blockquote>
<div>
<div>Then this touches grammar theory. While we may not really need a new theory, we do need to have a working theory with consistency. You may have a good one in mind. But to most people it is not the case. For example, I see you are deeply influenced by 中心词 and dependency. But not everyone even aware of that, not to mention if they agree with. Till now there is no serious competition, as really no large scale success story yet. We need to wait and see which 学派 eventually casts a bigger shadow.</div>
<div></div>
<div></div>
</div>
</blockquote>
<div></div>
</div>
<div><span style="color: #800000">Good to be criticized.  But I had a point to make there.</span></div>
<div></div>
<div>【相关博文】</div>
<div><a href="http://blog.sciencenet.cn/home.php?mod=space&amp;uid=362400&amp;do=blog&amp;id=522928" target="_blank"><img src="http://blog.sciencenet.cn/static/image/blog/recommendico.gif" alt="" width="12px" height="12px" />中文处理的迷思之一：切词特有论</a> 2011-12-28</div>
<div><a href="http://blog.sciencenet.cn/home.php?mod=space&amp;uid=362400&amp;do=blog&amp;id=522996" target="_blank">中文处理的迷思之二：词类标注是句法分析的前提</a> 2011-12-28</div>
<div><a href="http://blog.sciencenet.cn/home.php?mod=space&amp;uid=362400&amp;do=blog&amp;id=523130" target="_blank">中文NLP迷思之三：中文处理的长足进步有待于汉语语法的理论突破</a> 2011-12-29</div>
<div></div>
<p>本文引用地址：<a href="http://blog.sciencenet.cn/home.php?mod=space&amp;uid=362400&amp;do=blog&amp;id=523458" target="_blank">http://blog.sciencenet.cn/home.php?mod=space&amp;uid=362400&amp;do=blog&amp;id=523458</a></p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第二部分）'>MIT自然语言处理第四讲：标注（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/hmm-application-in-natural-language-processing-one-part-of-speech-tagging-1' rel='bookmark' title='HMM在自然语言处理中的应用一：词性标注1'>HMM在自然语言处理中的应用一：词性标注1</a></li>
<li><a href='http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation' rel='bookmark' title='基于字标注的中文分词方法'>基于字标注的中文分词方法</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-first-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第一部分）'>MIT自然语言处理第四讲：标注（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/hmm-application-in-natural-language-processing-one-part-of-speech-tagging-6' rel='bookmark' title='HMM在自然语言处理中的应用一：词性标注6'>HMM在自然语言处理中的应用一：词性标注6</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part' rel='bookmark' title='MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第四部分）'>MIT自然语言处理第四讲：标注（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-open-course-natural-language-processing-introduce' rel='bookmark' title='MIT开放式课程“自然语言处理”介绍'>MIT开放式课程“自然语言处理”介绍</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-third-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第三部分）'>MIT自然语言处理第四讲：标注（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/acl-2010-paper-%e5%9b%bd%e5%86%85%e7%a0%94%e7%a9%b6%e5%8d%95%e4%bd%8d%e5%bd%95%e7%94%a8%e6%83%85%e5%86%b5' rel='bookmark' title='ACL 2010 Paper国内研究单位录用情况'>ACL 2010 Paper国内研究单位录用情况</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e4%b8%93%e4%b8%9a%e8%80%81%e5%8f%8b%e7%97%9b%e6%89%b9%e7%ab%8b%e5%a7%94%e3%80%8a%e8%bf%b7%e6%80%9d%e3%80%8b%e7%b3%bb%e5%88%97%e6%90%85%e4%b9%b1nlp%e7%a7%a9%e5%ba%8f%ef%bc%8c%e7%ab%8b%e5%a7%94/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>迷思之三：中文处理的长足进步有待于汉语语法的理论突破</title>
		<link>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%a4%84%e7%90%86%e7%9a%84%e8%bf%b7%e6%80%9d%e4%b9%8b%e4%b8%89%ef%bc%9a%e4%b8%ad%e6%96%87%e5%a4%84%e7%90%86%e7%9a%84%e9%95%bf%e8%b6%b3%e8%bf%9b%e6%ad%a5%e6%9c%89%e5%be%85%e4%ba%8e</link>
		<comments>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%a4%84%e7%90%86%e7%9a%84%e8%bf%b7%e6%80%9d%e4%b9%8b%e4%b8%89%ef%bc%9a%e4%b8%ad%e6%96%87%e5%a4%84%e7%90%86%e7%9a%84%e9%95%bf%e8%b6%b3%e8%bf%9b%e6%ad%a5%e6%9c%89%e5%be%85%e4%ba%8e#comments</comments>
		<pubDate>Wed, 28 Dec 2011 16:40:48 +0000</pubDate>
		<dc:creator>liwei999</dc:creator>
				<category><![CDATA[自然语言处理]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=4182</guid>
		<description><![CDATA[严格说起来，这不能算是迷思，而应该算是放之四海而皆准的“多余的话”：任何学科的理论突破都可能引起应用层面的长足进步，不说也罢。其所以归类到这个迷思系列，是因为这样的高论在中文处理界常常甚嚣尘上，有严重误导青年学子的危害。其结果是喊了多年理论突破，理论并没有突破，反而造就了一批民科妄想家（只是指出这个现象而已，对事不对人，有对号入座者，后果自负）。单这个后果还不算要紧，要紧的是这一说法为应用家的无能提供了心理挡箭牌，使得他们多年来畏畏缩缩，裹足不前：不是我们无能，是汉语太“个别”了（国民党的败将的口头禅就是如此：不是国军无能，是中共太狡猾了）。 汉语语法与西文语法真地如此不同，以致现有的语言学理论对它束手无策或难以实行了么？这是一个可以永远争论下去，没有绝对答案的问题。然而从应用层面，我们可以回答的问题是：在西文的语言处理中所使用的各种形式化手段和机制（formalism, mechanism and devices）对于汉语是否适用？ 立委集20年NLP经验，可以负责任地回答这个问题：西文处理的机制和手段对于中文处理大多是适用的、可行的，也许有不够用的时候，需要机制的拓展（not necessarily 理论的突破），但总体而言是用得不够，是不会用、不善用的问题。语法虽然因语言不同而不同，但NLP武器库里的轻重火器大多是独立于具体语言之上的（language independent）。俗话是语糙理不糙的：拉不出矢，不能怪茅坑。 拿英语处理与中文处理的比较为例。诚然，由于汉语比较灵活，语言表达对形式化手段倚赖较弱，总体而言处理起来确实比英语要难。英语表达的形式化手段除了功能词（介词等），还包括词尾（如：-ed,-ing,-s,-able,-er），汉语没有完全对应的词尾形式，只有一些功能小词（譬如：了，着，过，们），而且这些词还常常省略。尽管英语在欧洲语言里面词尾是非常少的了，但是别小看这几个词尾对于简化词法语法分析的作用。中文处理较少这种便利。回到功能词上看，譬如介词连词，虽然英语有的，汉语基本都有，但是汉语省略功能词的时候远远多于英语，这是有统计根据的，也符合我们日常的感觉：往坏里说，中国人比较偷懒，说话不严谨；往好里说是，中国人很懂低炭，能省则省，汉语很灵活。举一个例子，可见汉语的省略是普遍的： （1）对于这件事，依我的看法，我们应该听其自然。 （2）这件事我的看法应该听其自然。 上述句子（2）译成英语，省去功能词是难以想象的。 这种缺少形式化手段的所谓汉语的“意合”式表达方式确实使得中文的电脑处理比英语处理困难。 这只是问题的一个方面，是从量上考察，即汉语的表达比英语往往更省略，更不严谨，更需要上下文。问题的另一面是从难点的性质上来看，中文处理遇到的问题究竟有多少是英文处理中没有遇到过的？我的答案是：很少很少。很多歧义问题省略问题，英语同样存在，只是不如汉语那么普遍而已。既然问题的性质基本相同，处理问题的机制和手段就同样适用。逻辑的结论就是：英语处理领域积累的经验和手段在中文处理中大有可为。如果有核武器攻下了英语这个堡垒，就没有道理攻不下汉语。只要不做上帝（因为只有上帝才是完美的），就没有裹足不前静待理论突破的道理。 其实，真正做过西文处理也做过中文处理的同行应该不难认同上述看法。我说的是“真正”，对西文处理浅尝辄止的不算（浅尝辄止的包括NLP硕士课程中的语法形式化游戏：S: NP VP; NP: Det? Adj+ NN+ NN; VP: V NP?）。如果你比较深入地implement过一个英语分析器，针对的是大批量的真实语料，你会发现：英语的深入分析所遇到的难点需要调动很多手段，需要很细致的工作，而这些手段和工作也正是中文处理所需要的。我常常这样跟朋友说英语处理和中文处理的异同：如果你做硕士作业，导师给你一周做出一个语言处理系统能够处理50％以上的语言现象，在英语是可行的，在汉语是不可行的。因为你可以下载一个免费POS Tagger，在POS基础上编制一套粗糙的语法交差。然而，如果你要面对真实语料做一个比较适用的语言分析系统，如果英语需要开发N个月，调动 M 个手段，那么用同样的时间和手段，中文开发也大体可以到位。 中文处理有没有特有的难点，甚至难以踰越的障碍，需要不需要理论突破？回答是肯定的，但是很多难点是可以绕着走的，个别难以企及的问题是可以搁置的，因为上帝允许不完美的系统。无论如何，中文处理不能长足进步，是我们应用学家的耻辱和失败，而决不能嫁祸到理论家的头上。 处理尚未成功，同志仍需努力，立委与工匠同仁共勉。]]></description>
			<content:encoded><![CDATA[<div>严格说起来，这不能算是迷思，而应该算是放之四海而皆准的“多余的话”：任何学科的理论突破都可能引起应用层面的长足进步，不说也罢。其所以归类到这个迷思系列，是因为这样的高论在中文处理界常常甚嚣尘上，有严重误导青年学子的危害。其结果是喊了多年理论突破，理论并没有突破，反而造就了一批民科妄想家（只是指出这个现象而已，对事不对人，有对号入座者，后果自负）。单这个后果还不算要紧，要紧的是这一说法为应用家的无能提供了心理挡箭牌，使得他们多年来畏畏缩缩，裹足不前：不是我们无能，是汉语太“个别”了（国民党的败将的口头禅就是如此：不是国军无能，是中共太狡猾了）。</div>
<div></div>
<div>汉语语法与西文语法真地如此不同，以致现有的语言学理论对它束手无策或难以实行了么？这是一个可以永远争论下去，没有绝对答案的问题。然而从应用层面，我们可以回答的问题是：在西文的语言处理中所使用的各种形式化手段和机制（formalism, mechanism and devices）对于汉语是否适用？</div>
<div></div>
<div>立委集20年NLP经验，可以负责任地回答这个问题：西文处理的机制和手段对于中文处理大多是适用的、可行的，也许有不够用的时候，需要机制的拓展（not necessarily 理论的突破），但总体而言是用得不够，是不会用、不善用的问题。语法虽然因语言不同而不同，但NLP武器库里的轻重火器大多是独立于具体语言之上的（language independent）。俗话是语糙理不糙的：拉不出矢，不能怪茅坑。</div>
<div></div>
<div>拿英语处理与中文处理的比较为例。诚然，由于汉语比较灵活，语言表达对形式化手段倚赖较弱，总体而言处理起来确实比英语要难。英语表达的形式化手段除了功能词（介词等），还包括词尾（如：-ed,-ing,-s,-able,-er），汉语没有完全对应的词尾形式，只有一些功能小词（譬如：了，着，过，们），而且这些词还常常省略。尽管英语在欧洲语言里面词尾是非常少的了，但是别小看这几个词尾对于简化词法语法分析的作用。中文处理较少这种便利。回到功能词上看，譬如介词连词，虽然英语有的，汉语基本都有，但是汉语省略功能词的时候远远多于英语，这是有统计根据的，也符合我们日常的感觉：往坏里说，中国人比较偷懒，说话不严谨；往好里说是，中国人很懂低炭，能省则省，汉语很灵活。举一个例子，可见汉语的省略是普遍的：</div>
<div></div>
<div>（1）<span style="text-decoration: underline">对于</span>这件事，<span style="text-decoration: underline">依</span>我的看法，<span style="text-decoration: underline">我们</span>应该听其自然。</div>
<div>（2）这件事我的看法应该听其自然。</div>
<div></div>
<div>上述句子（2）译成英语，省去功能词是难以想象的。</div>
<div></div>
<div>这种缺少形式化手段的所谓汉语的“意合”式表达方式确实使得中文的电脑处理比英语处理困难。</div>
<div></div>
<div>这只是问题的一个方面，是从量上考察，即汉语的表达比英语往往更省略，更不严谨，更需要上下文。问题的另一面是从难点的性质上来看，中文处理遇到的问题究竟有多少是英文处理中没有遇到过的？我的答案是：很少很少。很多歧义问题省略问题，英语同样存在，只是不如汉语那么普遍而已。既然问题的性质基本相同，处理问题的机制和手段就同样适用。逻辑的结论就是：英语处理领域积累的经验和手段在中文处理中大有可为。如果有核武器攻下了英语这个堡垒，就没有道理攻不下汉语。只要不做上帝（因为只有上帝才是完美的），就没有裹足不前静待理论突破的道理。</div>
<div></div>
<div>其实，真正做过西文处理也做过中文处理的同行应该不难认同上述看法。我说的是“真正”，对西文处理浅尝辄止的不算（浅尝辄止的包括NLP硕士课程中的语法形式化游戏：S: NP VP; NP: Det? Adj+ NN+ NN; VP: V NP?）。如果你比较深入地implement过一个英语分析器，针对的是大批量的真实语料，你会发现：英语的深入分析所遇到的难点需要调动很多手段，需要很细致的工作，而这些手段和工作也正是中文处理所需要的。我常常这样跟朋友说英语处理和中文处理的异同：如果你做硕士作业，导师给你一周做出一个语言处理系统能够处理50％以上的语言现象，在英语是可行的，在汉语是不可行的。因为你可以下载一个免费POS Tagger，在POS基础上编制一套粗糙的语法交差。然而，如果你要面对真实语料做一个比较适用的语言分析系统，如果英语需要开发N个月，调动 M 个手段，那么用同样的时间和手段，中文开发也大体可以到位。</div>
<div></div>
<div>中文处理有没有特有的难点，甚至难以踰越的障碍，需要不需要理论突破？回答是肯定的，但是很多难点是可以绕着走的，个别难以企及的问题是可以搁置的，因为上帝允许不完美的系统。无论如何，中文处理不能长足进步，是我们应用学家的耻辱和失败，而决不能嫁祸到理论家的头上。</div>
<div></div>
<div>处理尚未成功，同志仍需努力，立委与工匠同仁共勉。</div>
]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%a4%84%e7%90%86%e7%9a%84%e8%bf%b7%e6%80%9d%e4%b9%8b%e4%b8%89%ef%bc%9a%e4%b8%ad%e6%96%87%e5%a4%84%e7%90%86%e7%9a%84%e9%95%bf%e8%b6%b3%e8%bf%9b%e6%ad%a5%e6%9c%89%e5%be%85%e4%ba%8e/feed</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>中文处理的迷思之二：词类标注是句法分析的前提</title>
		<link>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%a4%84%e7%90%86%e7%9a%84%e8%bf%b7%e6%80%9d%e4%b9%8b%e4%ba%8c%ef%bc%9a%e8%af%8d%e7%b1%bb%e6%a0%87%e6%b3%a8%e6%98%af%e5%8f%a5%e6%b3%95%e5%88%86%e6%9e%90%e7%9a%84%e5%89%8d%e6%8f%90</link>
		<comments>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%a4%84%e7%90%86%e7%9a%84%e8%bf%b7%e6%80%9d%e4%b9%8b%e4%ba%8c%ef%bc%9a%e8%af%8d%e7%b1%bb%e6%a0%87%e6%b3%a8%e6%98%af%e5%8f%a5%e6%b3%95%e5%88%86%e6%9e%90%e7%9a%84%e5%89%8d%e6%8f%90#comments</comments>
		<pubDate>Wed, 28 Dec 2011 14:28:23 +0000</pubDate>
		<dc:creator>liwei999</dc:creator>
				<category><![CDATA[自然语言处理]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=4180</guid>
		<description><![CDATA[词类标注（Part-of-speech Tagging: POS）是汉语句法分析的前提么？ 没有这回事。 如果说为了模块化开发的方便，中文处理系统先行词类标注，再行句法分析，这种类似于多数英语分析器的架构从工程上看确实有一定的道理，但是词类标注并非句法分析的前提。 点破这一迷思的最直接的例证就是完全可以设计一个跳过POS模块的中文句法分析系统，事实上笔者目前研发的中文系统就跳过了这个环节。 有问：没有词类，怎么可能施行句法分析？ 回答是：谁说没有词类？词典里给出的任何类别标注都是一种“词类”。的确，没有这些“词典的类别”信息，句法分析就没有抽象度，就难以编写规则来parse千变万化的语句。 POS 模块的本义在于词类消歧，即根据上下文的条件标注唯一的一个语法词类，譬如把同一个“学习”在不同的上下文中分别标注为名词或动词。前面说过，这样做有工程上的便利，因为如果词类标注是准确的话，后续的句法分析规则就可以简化，是动词就走动词的规则，是名词就走名词的规则。但这只是问题的一个方面。 问题的另一面是，汉语中的词类歧义特别严重（语法学界甚至曾经有云：词无定类，入句而后定），不但很多词都可以是名词或动词，而且动词和形容词的界限也很模糊。三大类实词在汉语中如此界限不分明，这曾经被认为是中文信息处理寸步难行的最大障碍。歧义如此严重的语言如果实行两步走的架构，有可能陷入错误放大（error propagation）的怪圈，即，词类区分的错误进一步造成句法分析的灾难。这是因为有些词类区分的条件在局限于 local context 的 POS阶段尚未到位，POS 模块过早地标注了错误的词类。 根据 keep ambiguity untouched 的经验法则，遵循 adaptive development 的基本原则，跳过 POS 的环节，让句法分析直接建立在词典信息的基础之上，是解决上述矛盾的一个有效方法。具体来说就是，只利用词典里面的静态类别信息来做分析，无须倚赖专有的POS模块先行消歧。如果一个词既可以做名词，又可以做动词，那就把两个类别同时标注到这个词上。编写句法规则的时候，对于兼类词（譬如动名兼类词 “学习”）与单纯词（譬如纯名词“桌子”）根据条件的宽松分别对待即可。 需要说明的是，笔者并不反对先POS后Parser的中文处理策略，只是指出POS并非Parser的先决条件，还有一种句法直接建立在词典之上的一步走的策略。顺着这个思路，一步半的策略也许更好。所谓一步半，就是做一个简单的 POS 模块（算是半步）把词类区分中比较大路容易的现象标注好，并不求对所有词类施行标注。 相关文章: 坚持四项基本原则，开发鲁棒性NLP系统 应该立法禁止分词研究 :=) MIT自然语言处理第一讲：简介和概述（第一部分） 自然语言处理与计算语言学书籍汇总之六：国外书籍 MIT自然语言处理第二讲：单词计数（第四部分） CFP: The &#8230; <a href="http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%a4%84%e7%90%86%e7%9a%84%e8%bf%b7%e6%80%9d%e4%b9%8b%e4%ba%8c%ef%bc%9a%e8%af%8d%e7%b1%bb%e6%a0%87%e6%b3%a8%e6%98%af%e5%8f%a5%e6%b3%95%e5%88%86%e6%9e%90%e7%9a%84%e5%89%8d%e6%8f%90">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e5%9d%9a%e6%8c%81%e5%9b%9b%e9%a1%b9%e5%9f%ba%e6%9c%ac%e5%8e%9f%e5%88%99%ef%bc%8c%e5%bc%80%e5%8f%91%e9%b2%81%e6%a3%92%e6%80%a7nlp%e7%b3%bb%e7%bb%9f' rel='bookmark' title='坚持四项基本原则，开发鲁棒性NLP系统'>坚持四项基本原则，开发鲁棒性NLP系统</a></li>
<li><a href='http://www.52nlp.cn/%e5%ba%94%e8%af%a5%e7%ab%8b%e6%b3%95%e7%a6%81%e6%ad%a2%e5%88%86%e8%af%8d%e7%a0%94%e7%a9%b6' rel='bookmark' title='应该立法禁止分词研究 :=)'>应该立法禁止分词研究 :=)</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-first-part' rel='bookmark' title='MIT自然语言处理第一讲：简介和概述（第一部分）'>MIT自然语言处理第一讲：简介和概述（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-six-foreign-book' rel='bookmark' title='自然语言处理与计算语言学书籍汇总之六：国外书籍'>自然语言处理与计算语言学书籍汇总之六：国外书籍</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part' rel='bookmark' title='MIT自然语言处理第二讲：单词计数（第四部分）'>MIT自然语言处理第二讲：单词计数（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/cfp-the-7th-young-researchers-roundtable-on-spoken-dialogue-systems' rel='bookmark' title='CFP: The 7th Young Researchers&#8217; Roundtable on Spoken Dialogue Systems'>CFP: The 7th Young Researchers&#8217; Roundtable on Spoken Dialogue Systems</a></li>
<li><a href='http://www.52nlp.cn/acl-hlt-2011-list-of-accepted-papers' rel='bookmark' title='ACL-HLT 2011: List of Accepted Papers'>ACL-HLT 2011: List of Accepted Papers</a></li>
<li><a href='http://www.52nlp.cn/%e5%9f%ba%e4%ba%8e%e5%93%88%e5%b8%8c%e8%a1%a8%e5%92%8c%e4%ba%8c%e5%8f%89%e6%a0%91%e7%9a%84%e8%af%8d%e5%85%b8%e7%a0%94%e7%a9%b6%e4%b8%80' rel='bookmark' title='基于哈希表和二叉树的词典研究(一)'>基于哈希表和二叉树的词典研究(一)</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第二部分）'>MIT自然语言处理第四讲：标注（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part' rel='bookmark' title='MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>词类标注（Part-of-speech Tagging: POS）是汉语句法分析的前提么？</p>
<div>
<div></div>
<div>没有这回事。</div>
<div></div>
<div>如果说为了模块化开发的方便，中文处理系统先行词类标注，再行句法分析，这种类似于多数英语分析器的架构从工程上看确实有一定的道理，但是词类标注并非句法分析的前提。</div>
<div></div>
<div>点破这一迷思的最直接的例证就是完全可以设计一个跳过POS模块的中文句法分析系统，事实上笔者目前研发的中文系统就跳过了这个环节。</div>
<div></div>
<div>有问：没有词类，怎么可能施行句法分析？</div>
<div></div>
<div>回答是：谁说没有词类？词典里给出的任何类别标注都是一种“词类”。的确，没有这些“词典的类别”信息，句法分析就没有抽象度，就难以编写规则来parse千变万化的语句。</div>
<div></div>
<div>POS 模块的本义在于词类消歧，即根据上下文的条件标注唯一的一个语法词类，譬如把同一个“学习”在不同的上下文中分别标注为名词或动词。前面说过，这样做有工程上的便利，因为如果词类标注是准确的话，后续的句法分析规则就可以简化，是动词就走动词的规则，是名词就走名词的规则。但这只是问题的一个方面。</div>
<div></div>
<div>问题的另一面是，汉语中的词类歧义特别严重（语法学界甚至曾经有云：词无定类，入句而后定），不但很多词都可以是名词或动词，而且动词和形容词的界限也很模糊。三大类实词在汉语中如此界限不分明，这曾经被认为是中文信息处理寸步难行的最大障碍。歧义如此严重的语言如果实行两步走的架构，有可能陷入错误放大（error propagation）的怪圈，即，词类区分的错误进一步造成句法分析的灾难。这是因为有些词类区分的条件在局限于 local context 的 POS阶段尚未到位，POS 模块过早地标注了错误的词类。</div>
<div></div>
<div>根据 keep ambiguity untouched 的经验法则，遵循 adaptive development 的基本原则，跳过 POS 的环节，让句法分析直接建立在词典信息的基础之上，是解决上述矛盾的一个有效方法。具体来说就是，只利用词典里面的静态类别信息来做分析，无须倚赖专有的POS模块先行消歧。如果一个词既可以做名词，又可以做动词，那就把两个类别同时标注到这个词上。编写句法规则的时候，对于兼类词（譬如动名兼类词 “学习”）与单纯词（譬如纯名词“桌子”）根据条件的宽松分别对待即可。</div>
<div></div>
<div>需要说明的是，笔者并不反对先POS后Parser的中文处理策略，只是指出POS并非Parser的先决条件，还有一种句法直接建立在词典之上的一步走的策略。顺着这个思路，一步半的策略也许更好。所谓一步半，就是做一个简单的 POS 模块（算是半步）把词类区分中比较大路容易的现象标注好，并不求对所有词类施行标注。</div>
<div></div>
</div>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e5%9d%9a%e6%8c%81%e5%9b%9b%e9%a1%b9%e5%9f%ba%e6%9c%ac%e5%8e%9f%e5%88%99%ef%bc%8c%e5%bc%80%e5%8f%91%e9%b2%81%e6%a3%92%e6%80%a7nlp%e7%b3%bb%e7%bb%9f' rel='bookmark' title='坚持四项基本原则，开发鲁棒性NLP系统'>坚持四项基本原则，开发鲁棒性NLP系统</a></li>
<li><a href='http://www.52nlp.cn/%e5%ba%94%e8%af%a5%e7%ab%8b%e6%b3%95%e7%a6%81%e6%ad%a2%e5%88%86%e8%af%8d%e7%a0%94%e7%a9%b6' rel='bookmark' title='应该立法禁止分词研究 :=)'>应该立法禁止分词研究 :=)</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-first-part' rel='bookmark' title='MIT自然语言处理第一讲：简介和概述（第一部分）'>MIT自然语言处理第一讲：简介和概述（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-six-foreign-book' rel='bookmark' title='自然语言处理与计算语言学书籍汇总之六：国外书籍'>自然语言处理与计算语言学书籍汇总之六：国外书籍</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part' rel='bookmark' title='MIT自然语言处理第二讲：单词计数（第四部分）'>MIT自然语言处理第二讲：单词计数（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/cfp-the-7th-young-researchers-roundtable-on-spoken-dialogue-systems' rel='bookmark' title='CFP: The 7th Young Researchers&#8217; Roundtable on Spoken Dialogue Systems'>CFP: The 7th Young Researchers&#8217; Roundtable on Spoken Dialogue Systems</a></li>
<li><a href='http://www.52nlp.cn/acl-hlt-2011-list-of-accepted-papers' rel='bookmark' title='ACL-HLT 2011: List of Accepted Papers'>ACL-HLT 2011: List of Accepted Papers</a></li>
<li><a href='http://www.52nlp.cn/%e5%9f%ba%e4%ba%8e%e5%93%88%e5%b8%8c%e8%a1%a8%e5%92%8c%e4%ba%8c%e5%8f%89%e6%a0%91%e7%9a%84%e8%af%8d%e5%85%b8%e7%a0%94%e7%a9%b6%e4%b8%80' rel='bookmark' title='基于哈希表和二叉树的词典研究(一)'>基于哈希表和二叉树的词典研究(一)</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第二部分）'>MIT自然语言处理第四讲：标注（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part' rel='bookmark' title='MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%a4%84%e7%90%86%e7%9a%84%e8%bf%b7%e6%80%9d%e4%b9%8b%e4%ba%8c%ef%bc%9a%e8%af%8d%e7%b1%bb%e6%a0%87%e6%b3%a8%e6%98%af%e5%8f%a5%e6%b3%95%e5%88%86%e6%9e%90%e7%9a%84%e5%89%8d%e6%8f%90/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>中文处理的迷思之一：切词特有论</title>
		<link>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%a4%84%e7%90%86%e7%9a%84%e8%bf%b7%e6%80%9d%e4%b9%8b%e4%b8%80%ef%bc%9a%e5%88%87%e8%af%8d%e7%89%b9%e6%9c%89%e8%ae%ba</link>
		<comments>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%a4%84%e7%90%86%e7%9a%84%e8%bf%b7%e6%80%9d%e4%b9%8b%e4%b8%80%ef%bc%9a%e5%88%87%e8%af%8d%e7%89%b9%e6%9c%89%e8%ae%ba#comments</comments>
		<pubDate>Wed, 28 Dec 2011 14:26:40 +0000</pubDate>
		<dc:creator>liwei999</dc:creator>
				<category><![CDATA[自然语言处理]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=4178</guid>
		<description><![CDATA[电脑的中文处理业界有很多广为流传似是而非的迷思。在今后的随笔系列中，准备提出来分别讨论。 迷思之一：切词是中文（或东方语言）处理特有的前提，因为中文书写不分词。 切词作为中文处理的一个先行环节，是为了模块化开发的方便，这一点不错。但它根本就不特有。 任何自然语言处理都有一个先行环节，叫 tokenization，就是把输入的字符串分解成为词汇单位：无论何种书面语，没有这个环节，辞典的词汇信息就无以附着，在词汇类别的基础上的有概括性的进一步句法语义分析就不能进行。中文切词不过是这个通用的 tokenization 的一个案例而已，没有什么“特有”的问题。 有说：中文书写不分词，汉字一个挨一个，词之间没有显性标识，而西文是用 space（空白键）来分词的，因此分词是中文处理的特有难题。 这话并不确切，语言学上错误更多。具体来说： 1 汉语词典的词，虽然以多字词为多数，但也有单字词，特别是那些常用的功能词（连词、介词、叹词等）。对于单字词，书面汉语显然是有显性标志的，其标志就是字与字的自然分界（如果以汉字作为语言学分析的最小单位，语言学上叫语素，其 tokenization 极其简单：每两个字节为一个汉字），无需 space. 2 现代汉语的多字词（如：中华人民共和国）是复合词，本质上与西文的复合词（e.g. People&#8217;s Republic of China）没有区别，space 并不能解决复合词的分界问题。无论中西，复合词都主要靠查词典来解决，而不是靠自然分界（如 space）来解决（德语的名词复合词算是西文中的一个例外，封闭类复合词只要 space 就可以了，开放类复合词则需要进一步切词，叫 decompounding）。如果复合词的左边界或者右边界有歧义问题（譬如：“天下” 左右边界都可能歧义， e.g. 今天 下雨；英语复合副词 “in particular” 的右边界可能有歧义：e.g. in particular cases），无论中西，这种歧义都需要上下文的帮助才能解决。从手段上看，中文的多字词切词并无任何特别之处，英语 tokenization 用以识别复合词 People&#8217;s Republic &#8230; <a href="http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%a4%84%e7%90%86%e7%9a%84%e8%bf%b7%e6%80%9d%e4%b9%8b%e4%b8%80%ef%bc%9a%e5%88%87%e8%af%8d%e7%89%b9%e6%9c%89%e8%ae%ba">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e7%ac%ac%e4%b8%80%e7%a0%96' rel='bookmark' title='第一砖，混在NLP！'>第一砖，混在NLP！</a></li>
<li><a href='http://www.52nlp.cn/%e5%ba%94%e8%af%a5%e7%ab%8b%e6%b3%95%e7%a6%81%e6%ad%a2%e5%88%86%e8%af%8d%e7%a0%94%e7%a9%b6' rel='bookmark' title='应该立法禁止分词研究 :=)'>应该立法禁止分词研究 :=)</a></li>
<li><a href='http://www.52nlp.cn/%e7%aa%81%e7%84%b6%e6%9c%89%e4%b8%80%e7%a7%8d%e7%b4%a7%e8%bf%ab%e6%84%9f%ef%bc%9a%e5%86%8d%e4%b8%8d%e4%b8%8a%e4%b8%ad%e6%96%87nlp%ef%bc%8c%e5%8f%af%e8%83%bd%e5%b0%b1%e9%94%99%e8%bf%87%e6%97%b6' rel='bookmark' title='突然有一种紧迫感：再不上中文NLP，可能就错过时代机遇了'>突然有一种紧迫感：再不上中文NLP，可能就错过时代机遇了</a></li>
<li><a href='http://www.52nlp.cn/niutrans-%e4%b8%80%e5%a5%97%e5%bc%80%e6%ba%90%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b9%b3%e5%8f%b0' rel='bookmark' title='NiuTrans: 一套开源的统计机器翻译平台'>NiuTrans: 一套开源的统计机器翻译平台</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part' rel='bookmark' title='MIT自然语言处理第二讲：单词计数（第四部分）'>MIT自然语言处理第二讲：单词计数（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/%e5%9d%9a%e6%8c%81%e5%9b%9b%e9%a1%b9%e5%9f%ba%e6%9c%ac%e5%8e%9f%e5%88%99%ef%bc%8c%e5%bc%80%e5%8f%91%e9%b2%81%e6%a3%92%e6%80%a7nlp%e7%b3%bb%e7%bb%9f' rel='bookmark' title='坚持四项基本原则，开发鲁棒性NLP系统'>坚持四项基本原则，开发鲁棒性NLP系统</a></li>
<li><a href='http://www.52nlp.cn/coling-2010-prospect' rel='bookmark' title='COLING 2010前瞻——规则与统计共舞，语言随计算齐飞'>COLING 2010前瞻——规则与统计共舞，语言随计算齐飞</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-company-language-weaver' rel='bookmark' title='自然语言处理公司巡礼七：Language Weaver'>自然语言处理公司巡礼七：Language Weaver</a></li>
<li><a href='http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e7%a7%91%e6%99%ae-%e4%bb%8e%e4%ba%a7%e4%b8%9a%e8%a7%92%e5%ba%a6%e8%af%b4%e8%af%b4nlp%e8%bf%99%e4%b8%aa%e8%a1%8c%e5%bd%93' rel='bookmark' title='立委科普：从产业角度说说NLP这个行当'>立委科普：从产业角度说说NLP这个行当</a></li>
<li><a href='http://www.52nlp.cn/%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e6%96%b0%e9%97%bb%e4%b8%80%e5%88%99-sdl%e5%85%ac%e5%8f%b8%e6%94%b6%e8%b4%adlanguage-weaver' rel='bookmark' title='机器翻译新闻一则：SDL公司收购Language Weaver'>机器翻译新闻一则：SDL公司收购Language Weaver</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<div>电脑的中文处理业界有很多广为流传似是而非的迷思。在今后的随笔系列中，准备提出来分别讨论。</div>
<div></div>
<div>迷思之一：切词是中文（或东方语言）处理特有的前提，因为中文书写不分词。</div>
<div></div>
<div>切词作为中文处理的一个先行环节，是为了模块化开发的方便，这一点不错。但它根本就不特有。</div>
<div></div>
<div>任何自然语言处理都有一个先行环节，叫 tokenization，就是把输入的字符串分解成为词汇单位：无论何种书面语，没有这个环节，辞典的词汇信息就无以附着，在词汇类别的基础上的有概括性的进一步句法语义分析就不能进行。中文切词不过是这个通用的 tokenization 的一个案例而已，没有什么“特有”的问题。</div>
<div></div>
<div>有说：中文书写不分词，汉字一个挨一个，词之间没有显性标识，而西文是用 space（空白键）来分词的，因此分词是中文处理的特有难题。</div>
<div></div>
<div>这话并不确切，语言学上错误更多。具体来说：</div>
<div></div>
<div>1 汉语词典的词，虽然以多字词为多数，但也有单字词，特别是那些常用的功能词（连词、介词、叹词等）。对于单字词，书面汉语显然是有显性标志的，其标志就是字与字的自然分界（如果以汉字作为语言学分析的最小单位，语言学上叫语素，其 tokenization 极其简单：每两个字节为一个汉字），无需 space.</div>
<div></div>
<div>2 现代汉语的多字词（如：中华人民共和国）是复合词，本质上与西文的复合词（e.g. People&#8217;s Republic of China）没有区别，space 并不能解决复合词的分界问题。无论中西，复合词都主要靠查词典来解决，而不是靠自然分界（如 space）来解决（德语的名词复合词算是西文中的一个例外，封闭类复合词只要 space 就可以了，开放类复合词则需要进一步切词，叫 decompounding）。如果复合词的左边界或者右边界有歧义问题（譬如：“天下” 左右边界都可能歧义， e.g. 今天 下雨；英语复合副词 “in particular” 的右边界可能有歧义：e.g. in particular cases），无论中西，这种歧义都需要上下文的帮助才能解决。从手段上看，中文的多字词切词并无任何特别之处，英语 tokenization 用以识别复合词 People&#8217;s Republic of China 和 in particular 的方法，同样适用于中文切词。</div>
<div></div>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e7%ac%ac%e4%b8%80%e7%a0%96' rel='bookmark' title='第一砖，混在NLP！'>第一砖，混在NLP！</a></li>
<li><a href='http://www.52nlp.cn/%e5%ba%94%e8%af%a5%e7%ab%8b%e6%b3%95%e7%a6%81%e6%ad%a2%e5%88%86%e8%af%8d%e7%a0%94%e7%a9%b6' rel='bookmark' title='应该立法禁止分词研究 :=)'>应该立法禁止分词研究 :=)</a></li>
<li><a href='http://www.52nlp.cn/%e7%aa%81%e7%84%b6%e6%9c%89%e4%b8%80%e7%a7%8d%e7%b4%a7%e8%bf%ab%e6%84%9f%ef%bc%9a%e5%86%8d%e4%b8%8d%e4%b8%8a%e4%b8%ad%e6%96%87nlp%ef%bc%8c%e5%8f%af%e8%83%bd%e5%b0%b1%e9%94%99%e8%bf%87%e6%97%b6' rel='bookmark' title='突然有一种紧迫感：再不上中文NLP，可能就错过时代机遇了'>突然有一种紧迫感：再不上中文NLP，可能就错过时代机遇了</a></li>
<li><a href='http://www.52nlp.cn/niutrans-%e4%b8%80%e5%a5%97%e5%bc%80%e6%ba%90%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b9%b3%e5%8f%b0' rel='bookmark' title='NiuTrans: 一套开源的统计机器翻译平台'>NiuTrans: 一套开源的统计机器翻译平台</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part' rel='bookmark' title='MIT自然语言处理第二讲：单词计数（第四部分）'>MIT自然语言处理第二讲：单词计数（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/%e5%9d%9a%e6%8c%81%e5%9b%9b%e9%a1%b9%e5%9f%ba%e6%9c%ac%e5%8e%9f%e5%88%99%ef%bc%8c%e5%bc%80%e5%8f%91%e9%b2%81%e6%a3%92%e6%80%a7nlp%e7%b3%bb%e7%bb%9f' rel='bookmark' title='坚持四项基本原则，开发鲁棒性NLP系统'>坚持四项基本原则，开发鲁棒性NLP系统</a></li>
<li><a href='http://www.52nlp.cn/coling-2010-prospect' rel='bookmark' title='COLING 2010前瞻——规则与统计共舞，语言随计算齐飞'>COLING 2010前瞻——规则与统计共舞，语言随计算齐飞</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-company-language-weaver' rel='bookmark' title='自然语言处理公司巡礼七：Language Weaver'>自然语言处理公司巡礼七：Language Weaver</a></li>
<li><a href='http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e7%a7%91%e6%99%ae-%e4%bb%8e%e4%ba%a7%e4%b8%9a%e8%a7%92%e5%ba%a6%e8%af%b4%e8%af%b4nlp%e8%bf%99%e4%b8%aa%e8%a1%8c%e5%bd%93' rel='bookmark' title='立委科普：从产业角度说说NLP这个行当'>立委科普：从产业角度说说NLP这个行当</a></li>
<li><a href='http://www.52nlp.cn/%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e6%96%b0%e9%97%bb%e4%b8%80%e5%88%99-sdl%e5%85%ac%e5%8f%b8%e6%94%b6%e8%b4%adlanguage-weaver' rel='bookmark' title='机器翻译新闻一则：SDL公司收购Language Weaver'>机器翻译新闻一则：SDL公司收购Language Weaver</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%a4%84%e7%90%86%e7%9a%84%e8%bf%b7%e6%80%9d%e4%b9%8b%e4%b8%80%ef%bc%9a%e5%88%87%e8%af%8d%e7%89%b9%e6%9c%89%e8%ae%ba/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>突然有一种紧迫感：再不上中文NLP，可能就错过时代机遇了</title>
		<link>http://www.52nlp.cn/%e7%aa%81%e7%84%b6%e6%9c%89%e4%b8%80%e7%a7%8d%e7%b4%a7%e8%bf%ab%e6%84%9f%ef%bc%9a%e5%86%8d%e4%b8%8d%e4%b8%8a%e4%b8%ad%e6%96%87nlp%ef%bc%8c%e5%8f%af%e8%83%bd%e5%b0%b1%e9%94%99%e8%bf%87%e6%97%b6</link>
		<comments>http://www.52nlp.cn/%e7%aa%81%e7%84%b6%e6%9c%89%e4%b8%80%e7%a7%8d%e7%b4%a7%e8%bf%ab%e6%84%9f%ef%bc%9a%e5%86%8d%e4%b8%8d%e4%b8%8a%e4%b8%ad%e6%96%87nlp%ef%bc%8c%e5%8f%af%e8%83%bd%e5%b0%b1%e9%94%99%e8%bf%87%e6%97%b6#comments</comments>
		<pubDate>Sat, 10 Dec 2011 17:26:43 +0000</pubDate>
		<dc:creator>liwei999</dc:creator>
				<category><![CDATA[自然语言处理]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=4158</guid>
		<description><![CDATA[与业內老友的对话：在‘用’字上狠下功夫 耳边响起了林副主席关于系统开发的谆谆教导： Quote 带着问题做，活做活用，做用结合，急用先做，立竿见影，在‘用’字上狠下功夫。 from：http://blog.sciencenet.cn/home.php?mod=space&#38;uid=362400&#38;do=blog&#38;id=510567 这是从与朋友的内部交流中得来的。赶的是编造名人名言的时髦。 ～～～～～～～～～～～～ 在我发文【坚持四项基本原则，开发鲁棒性NLP系统】以后，有业内资深老友表示非常有意思，建议我把NLP方面的博文系列汇集加工，可以考虑出书： Quote A good 经验之谈. Somehow it reminds me this &#8211; 带着问题学，活学活用，学用结合，急用先学，立竿见影，在‘用’字上狠下功夫。 You made a hidden preamble &#8212; a given type of application in a given domain. A recommendation: expand your blog a &#8230; <a href="http://www.52nlp.cn/%e7%aa%81%e7%84%b6%e6%9c%89%e4%b8%80%e7%a7%8d%e7%b4%a7%e8%bf%ab%e6%84%9f%ef%bc%9a%e5%86%8d%e4%b8%8d%e4%b8%8a%e4%b8%ad%e6%96%87nlp%ef%bc%8c%e5%8f%af%e8%83%bd%e5%b0%b1%e9%94%99%e8%bf%87%e6%97%b6">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/compile-stardict-tools-and-use-stardict2txt' rel='bookmark' title='编译stardict-tools-3.0.1及使用stardict2txt'>编译stardict-tools-3.0.1及使用stardict2txt</a></li>
<li><a href='http://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc' rel='bookmark' title='LDC上免费的中文信息处理资源'>LDC上免费的中文信息处理资源</a></li>
<li><a href='http://www.52nlp.cn/%e5%ae%89%e8%a3%85srilm%e7%9a%84%e4%b8%80%e7%82%b9%e6%96%b0%e5%8f%98%e5%8c%96' rel='bookmark' title='安装Srilm的一点新变化'>安装Srilm的一点新变化</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<div>与业內老友的对话：在‘用’字上狠下功夫</div>
<div>耳边响起了林副主席关于系统开发的谆谆教导：</div>
<blockquote>
<div>
<blockquote>
<div><span style="color: #800000">Quote</span></div>
<div><span style="color: #800000;font-size: medium"><strong>带着问题做，活做活用，做用结合，急用先做，立竿见影，在‘用’字上狠下功夫。</strong></span></div>
<div>from：<a href="http://blog.sciencenet.cn/home.php?mod=space&amp;uid=362400&amp;do=blog&amp;id=510567" rel="nofollow" target="_blank">http://blog.sciencenet.cn/home.php?mod=space&amp;uid=362400&amp;do=blog&amp;id=510567</a></div>
</blockquote>
</div>
</blockquote>
<div>这是从与朋友的内部交流中得来的。赶的是编造名人名言的时髦。<br />
～～～～～～～～～～～～</div>
<div>在我发文【<a href="http://blog.sciencenet.cn/home.php?mod=space&amp;uid=362400&amp;do=blog&amp;id=516413" target="_blank">坚持四项基本原则，开发鲁棒性NLP系统</a>】以后，有业内资深老友表示非常有意思，建议我把NLP方面的博文系列汇集加工，可以考虑出书：</div>
<blockquote>
<div><span style="color: #800000">Quote</span></div>
<div><span style="color: #800000">A good 经验之谈. Somehow it reminds me this &#8211;</span></div>
<div><span style="color: #800000">带着问题学，活学活用，学用结合，急用先学，立竿见影，在‘用’字上狠下功夫。</span></div>
<div><span style="color: #800000"><br />
</span></div>
<div><span style="color: #800000">You made a hidden preamble &#8212; a given type of application in a given domain.</span></div>
<div><span style="color: #800000"><br />
</span></div>
<div><span style="color: #800000">A recommendation: expand your blog a bit as a series, heading to a book.</span></div>
<div><span style="color: #800000"><br />
</span></div>
<div><span style="color: #800000">My friend 吴军 did that quite successfully. Of course with statistics background. So he approached NLP from math perspective &#8212; 数学之美 系列</span></div>
<div><span style="color: #800000"><br />
</span></div>
<div><span style="color: #800000">You have very good thoughts and raw material. Just you need to put a bit more time to make your writing more approachable &#8212; I am commenting on comments like “学习不了。” and “读起来鸭梨很大”.</span></div>
<div><span style="color: #800000"><br />
</span></div>
<div><span style="color: #800000">I know you said: “有时候想，也不能弄得太可读了，都是多年 的经验，后生想学的话，也该吃点苦头。:=)”</span></div>
<div><span style="color: #800000"><br />
</span></div>
<div><span style="color: #800000">But as you already put in the efforts, why not make it more approachable?</span></div>
<div><span style="color: #800000"><br />
</span></div>
<div><span style="color: #800000">The issue is, even if I am willing to 吃点苦头, I still don&#8217;t know where to start 吃苦头, IF I have never built a real-life NLP system.</span></div>
<div><span style="color: #800000"><br />
</span></div>
<p><span style="color: #800000">For example, 词汇主义 by itself is enough for an article. You need to mention its opponents and its history to put it into context. Then you need to give some examples.</span></p></blockquote>
<p>文章千古事，网上涂鸦岂敢出书？这倒不是妄自菲薄，主要是出书太麻烦，跟不上这个时代。我回到：</p>
<div>
<div>吴军&#8217;s series are super popular. When I first read one of his articles on the Google Blackboard, recommended by a friend, I was amazed how well he structured and carried the content. It is intriguing. （边注：当然，他那篇谈 Page Rank 的文章有偏颇，给年轻人一种印象，IT 事业的成功是由技术主宰的，而实际上技术永远是第二位的。对于所谓高技术企业，没有技术是万万不行的，但企业成功的关键却不是技术，这是显而易见的事实了。）For me, to be honest, I do not aim that high.  Never bothered polishing things to pursue perfection although I did make an effort to try to link my stuffs into a series for the convenience of cross reference inside the related series. There are missing links which I know I want to write about but which sort of depends on my mood or time slots.  I guess I am just not pressed and motivated to do the writing part.  Popularizing the technology is only a side effect of the blogging hobby at times.  The way I prove myself is to show that I will be able to build products worth of millions, or even hundreds of millions of dollars.</p>
</div>
<div>
<p>网上的文字都是随兴之所至，我从来不写命题作文，包括我自己的命题。有时候兴趣来了，就说自己下一篇打算写什么什么，算是自我命题，算是动了某个话题的心思。可是过了两天，一个叉打过去，没那个兴致和时间了，也就作罢。</p>
<p>赶上什么写什么，这就是上网的心态。平时打工已经够累了，上网绝不给自己增加负担。</p>
<p>So far I have been fairly straightforward on what I write about.  If there is readability issue, it is mainly due to my lack of time.  Young people should be able to benefit from my writings especially once they start getting their hands dirty in building up a system.</p>
<p>Your discussion is fun. You can see and appreciate things hidden behind my work more than other readers.  After all, you have published in THE CL and you have almost terminated the entire segmentation as a scientific area. Seriously, it is my view that there is not much to do there after your work on tokenization both in theory and practice.</p>
<p>I feel some urgency now for having to do Chinese NLP asap.  Not many people have been though that much as what I have been (luckily), so I am in a position to potentially build a much more powerful system to make an impact on Chinese NLP, and hopefully on the IT landscape as well.  But time passes fast . That is why my focus is on the Chinese processing now, day and night.  I am keeping my hands dirty also with a couple of European languages, but they are less challenging and exciting.</p>
</div>
</div>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/compile-stardict-tools-and-use-stardict2txt' rel='bookmark' title='编译stardict-tools-3.0.1及使用stardict2txt'>编译stardict-tools-3.0.1及使用stardict2txt</a></li>
<li><a href='http://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc' rel='bookmark' title='LDC上免费的中文信息处理资源'>LDC上免费的中文信息处理资源</a></li>
<li><a href='http://www.52nlp.cn/%e5%ae%89%e8%a3%85srilm%e7%9a%84%e4%b8%80%e7%82%b9%e6%96%b0%e5%8f%98%e5%8c%96' rel='bookmark' title='安装Srilm的一点新变化'>安装Srilm的一点新变化</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e7%aa%81%e7%84%b6%e6%9c%89%e4%b8%80%e7%a7%8d%e7%b4%a7%e8%bf%ab%e6%84%9f%ef%bc%9a%e5%86%8d%e4%b8%8d%e4%b8%8a%e4%b8%ad%e6%96%87nlp%ef%bc%8c%e5%8f%af%e8%83%bd%e5%b0%b1%e9%94%99%e8%bf%87%e6%97%b6/feed</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
		<item>
		<title>再说苹果爱疯的贴身小蜜 死日（Siri）</title>
		<link>http://www.52nlp.cn/sir</link>
		<comments>http://www.52nlp.cn/sir#comments</comments>
		<pubDate>Fri, 09 Dec 2011 06:45:46 +0000</pubDate>
		<dc:creator>liwei999</dc:creator>
				<category><![CDATA[自然语言处理]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=4154</guid>
		<description><![CDATA[话说这苹果真是能折腾，一个技术课题硬是折腾成大众话题，弄得满世界都在谈论苹果爱疯的贴身小蜜 “死日”（Siri，没追踪来源，但瞧这名字起的），说是她无所不能，能听得懂主人的心思，自动打理各项事务，从天气预报，到提供股票信息，甚至做笔记。不服不行，人家就是把这个科幻世界的机器人功能产品化了，挑起了大众的好奇心。虽然毁誉参半，批评者与追星者一样多，还是为语言技术扬了名。这不，圣诞节到了，调查表明，美国青少年最喜欢的圣诞礼品有三：（1）礼物券，也就是钱，爱怎么花自己定当然好；（2）时装（爱美之心）；（3）苹果产品（因为那是时髦的代名词）。 前些时候，与朋友谈到死日，我说它有三大来源：首先是语言技术，包括语音识别和文句分析。语音识别做了很多年了，据说技术相当成熟可用了（语音虽然是我的近邻了，但隔行如隔山，我就不评论了）。文句分析（这可是我的老本行）当然有难度，但是因为死日是目标制导，即从目标app反推自然语言的问句表达法，所以分析难度大为降低，基本上是 tractable 的（见《立委随笔：非常折服苹果的技术转化能力》）。第二个来源是当年 AskJeeves 借以扬名的 million-dollar idea (见《【 IT风云掌故：金点子起家的　AskJeeves 】》)，巧妙运用预知的问题模板，用粗浅的文句分析技术对应上去，反问用户，从而做到不变应万变，克服机器理解的困难。最近有人问死日：Where can I park the car? 死日就反问道：you asked about park as in a public park, or parking for your vehicle? 虽然问句表明了这位贴身小蜜是绣花枕头，徒有其表，理解能力很有限，但是对于主人（用户）来说，在两个选项中肯定一个不过是举“口”之劳的事情。第三个来源就是所谓聊天系统，网上有不少类似的玩具（见【立委科普：问答系统的前生今世】 第一部分) ，他是当年面临绝路的老 AI 留下的两大遗产之一（另一个遗产是所谓专家系统）。 最近摆弄汉语自动分析，有老友批评得很到位： Quote 俺斗胆评论一下，您的系统长项应该在于自然 语言理解 &#8230; <a href="http://www.52nlp.cn/sir">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e9%9a%8f%e7%ac%94-%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0%e5%92%8c%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86' rel='bookmark' title='立委随笔：机器学习和自然语言处理'>立委随笔：机器学习和自然语言处理</a></li>
<li><a href='http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e7%a7%91%e6%99%ae-%e9%97%ae%e7%ad%94%e7%b3%bb%e7%bb%9f%e7%9a%84%e5%89%8d%e7%94%9f%e4%bb%8a%e4%b8%96' rel='bookmark' title='立委科普：问答系统的前生今世'>立委科普：问答系统的前生今世</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-company-powerset' rel='bookmark' title='自然语言处理公司巡礼二：Powerset'>自然语言处理公司巡礼二：Powerset</a></li>
<li><a href='http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e7%a7%91%e6%99%ae-%e4%bb%8e%e4%ba%a7%e4%b8%9a%e8%a7%92%e5%ba%a6%e8%af%b4%e8%af%b4nlp%e8%bf%99%e4%b8%aa%e8%a1%8c%e5%bd%93' rel='bookmark' title='立委科普：从产业角度说说NLP这个行当'>立委科普：从产业角度说说NLP这个行当</a></li>
<li><a href='http://www.52nlp.cn/%e5%9d%9a%e6%8c%81%e5%9b%9b%e9%a1%b9%e5%9f%ba%e6%9c%ac%e5%8e%9f%e5%88%99%ef%bc%8c%e5%bc%80%e5%8f%91%e9%b2%81%e6%a3%92%e6%80%a7nlp%e7%b3%bb%e7%bb%9f' rel='bookmark' title='坚持四项基本原则，开发鲁棒性NLP系统'>坚持四项基本原则，开发鲁棒性NLP系统</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>话说这苹果真是能折腾，一个技术课题硬是折腾成大众话题，弄得满世界都在谈论苹果爱疯的贴身小蜜 “死日”（Siri，没追踪来源，但瞧这名字起的），说是她无所不能，能听得懂主人的心思，自动打理各项事务，从天气预报，到提供股票信息，甚至做笔记。不服不行，人家就是把这个科幻世界的机器人功能产品化了，挑起了大众的好奇心。虽然毁誉参半，批评者与追星者一样多，还是为语言技术扬了名。这不，圣诞节到了，调查表明，美国青少年最喜欢的圣诞礼品有三：（1）礼物券，也就是钱，爱怎么花自己定当然好；（2）时装（爱美之心）；（3）苹果产品（因为那是时髦的代名词）。</p>
<p>前些时候，与朋友谈到死日，我说它有三大来源：首先是语言技术，包括语音识别和文句分析。语音识别做了很多年了，据说技术相当成熟可用了（语音虽然是我的近邻了，但隔行如隔山，我就不评论了）。文句分析（这可是我的老本行）当然有难度，但是因为死日是目标制导，即从目标app反推自然语言的问句表达法，所以分析难度大为降低，基本上是 tractable 的（见《立委随笔：非常折服苹果的技术转化能力》）。第二个来源是当年 AskJeeves 借以扬名的 million-dollar idea (见《【 IT风云掌故：金点子起家的　AskJeeves 】》)，巧妙运用预知的问题模板，用粗浅的文句分析技术对应上去，反问用户，从而做到不变应万变，克服机器理解的困难。最近有人问死日：Where can I park the car? 死日就反问道：you asked about park as in a public park, or parking for your vehicle? 虽然问句表明了这位贴身小蜜是绣花枕头，徒有其表，理解能力很有限，但是对于主人（用户）来说，在两个选项中肯定一个不过是举“口”之劳的事情。第三个来源就是所谓聊天系统，网上有不少类似的玩具（见【立委科普：问答系统的前生今世】 第一部分) ，他是当年面临绝路的老 AI 留下的两大遗产之一（另一个遗产是所谓专家系统）。</p>
<p>最近摆弄汉语自动分析，有老友批评得很到位：</p>
<p>Quote<br />
俺斗胆评论一下，您的系统长项应该在于自然 语言理解</p>
<p>至于语法树，应该是小儿科。韩愈说“句读之不知,惑 之不解”。</p>
<p>语法树的作用在于“知句读”，而您的系统应该强调“解惑”。</p>
<p>俺感觉照现在的发展速度，一个能够真正通过图灵检验的系统应该离我们不远了。虽然现在已经有系统号称能通过，但是都是聊天系统，干的本身就是不着调的工作。离真正意义的图灵检验还有距离。</p>
<p>是小儿科，可是很多人弄不了这小儿科呢。<br />
日期: 12/05/2011 13:41:30</p>
<p>从high level看，从100年后看，说小儿科也差不多。</p>
<p>但是你所谓的解惑，离开现实太远。</p>
<p>一般来说，机器擅长分析、抽取和挖掘，上升到预测和解惑还有很长的路，除非预测是挖掘的简单延伸，解惑就是回答黑白分明的问题。</p>
<p>“聊天系统，干的本身就是不着调的工作”，一点儿不错，那是所谓 old AI 的残余。不过，即便如此，我在 苹果 Siri 中看到的三个来源（1.自然语言技术：语音和文字 2 Askjeeves 模板技术；3. 所谓 AI 聊天系统）中也看到了它的影子，它是有实用价值的，价值在于制造没有理解下的 “人工智能” 的假象。</p>
<p>昨天甜甜秀给我看：Dad, somebody asked Siri: what are you wearing? Guess how he replies?</p>
<p>Siri: “Aluminosilicate glass and stainless steel. Nice, huh?” </p>
<p>这种 trick，即便知道是假的，也让人感觉到设计者的一份幽默。</p>
<p>那天在苹果iPhone4s展示会上，临结束全场哄堂大笑，原来苹果经理最后问了一个问题：Who are you?</p>
<p>Siri 扭着细声答道：</p>
<p>I am your humble assistant.</p>
<p>面对难以实现的人工智能，来点儿幽默似的假的人工智能，也是一种智慧。</p>
<p>相关篇什：<br />
《立委随笔：非常折服苹果的技术转化能力。。。》<br />
《从新版iPhone发布，看苹果和微软技术转化能力的天壤之别》<br />
科学网—【立委科普：问答系统的前生今世】<br />
科学网—《立委随笔：人工“智能”》</p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e9%9a%8f%e7%ac%94-%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0%e5%92%8c%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86' rel='bookmark' title='立委随笔：机器学习和自然语言处理'>立委随笔：机器学习和自然语言处理</a></li>
<li><a href='http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e7%a7%91%e6%99%ae-%e9%97%ae%e7%ad%94%e7%b3%bb%e7%bb%9f%e7%9a%84%e5%89%8d%e7%94%9f%e4%bb%8a%e4%b8%96' rel='bookmark' title='立委科普：问答系统的前生今世'>立委科普：问答系统的前生今世</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-company-powerset' rel='bookmark' title='自然语言处理公司巡礼二：Powerset'>自然语言处理公司巡礼二：Powerset</a></li>
<li><a href='http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e7%a7%91%e6%99%ae-%e4%bb%8e%e4%ba%a7%e4%b8%9a%e8%a7%92%e5%ba%a6%e8%af%b4%e8%af%b4nlp%e8%bf%99%e4%b8%aa%e8%a1%8c%e5%bd%93' rel='bookmark' title='立委科普：从产业角度说说NLP这个行当'>立委科普：从产业角度说说NLP这个行当</a></li>
<li><a href='http://www.52nlp.cn/%e5%9d%9a%e6%8c%81%e5%9b%9b%e9%a1%b9%e5%9f%ba%e6%9c%ac%e5%8e%9f%e5%88%99%ef%bc%8c%e5%bc%80%e5%8f%91%e9%b2%81%e6%a3%92%e6%80%a7nlp%e7%b3%bb%e7%bb%9f' rel='bookmark' title='坚持四项基本原则，开发鲁棒性NLP系统'>坚持四项基本原则，开发鲁棒性NLP系统</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/sir/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>坚持四项基本原则，开发鲁棒性NLP系统</title>
		<link>http://www.52nlp.cn/%e5%9d%9a%e6%8c%81%e5%9b%9b%e9%a1%b9%e5%9f%ba%e6%9c%ac%e5%8e%9f%e5%88%99%ef%bc%8c%e5%bc%80%e5%8f%91%e9%b2%81%e6%a3%92%e6%80%a7nlp%e7%b3%bb%e7%bb%9f</link>
		<comments>http://www.52nlp.cn/%e5%9d%9a%e6%8c%81%e5%9b%9b%e9%a1%b9%e5%9f%ba%e6%9c%ac%e5%8e%9f%e5%88%99%ef%bc%8c%e5%bc%80%e5%8f%91%e9%b2%81%e6%a3%92%e6%80%a7nlp%e7%b3%bb%e7%bb%9f#comments</comments>
		<pubDate>Thu, 08 Dec 2011 23:07:02 +0000</pubDate>
		<dc:creator>liwei999</dc:creator>
				<category><![CDATA[自然语言处理]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=4150</guid>
		<description><![CDATA[以前说过，一个 real life 自然语言处理系统，其质量和可用度除了传统的 data quality 的衡量指标查准度（precision）和查全度（recall）外，还有更为重要的三大指标：海量处理能力（scalability）, 深度（depth）和鲁棒性（robustness）。本文就简单谈一下鲁棒性。 为了取得语言处理的鲁棒性（robustness），一个行之有效的方法是实现四个形容词的所指：词汇主义（lexicalist）; 自底而上（bottom-up）; 调适性（adaptive）；和数据制导（data-driven）。这四条是相互关联的，但各自重点和视角不同。系统设计和开发上贯彻这四项基本原则， 是取得坚固性的良好保证。有了坚固性，系统对于不同领域的语言，甚至对极不规范的社会媒体中的语言现象，都可以应对。这是很多实用系统的必要条件。 先说词汇主义策略。词汇主义的语言处理策略是学界和业界公认的一个有效的方法。具体说来就是在系统中增加词汇制导的个性规则的总量。自然语言的现象是如此复杂，几乎所有的规则都有例外，词汇制导是必由之路。从坚固性而言，更是如此。基本的事实是，语言现象中的所谓子语言（sublanguage），譬如专业用语，网络用语，青少年用语，他们之间的最大区别是在词汇以及词汇的用法上。一般来说，颗粒度大的普遍语法规则在各子语言中依然有效。因此，采用词汇主义策略，可以有效地解决子语言的分析问题，从而提高系统的鲁棒性。 自底而上的分析方法。这种方法对于自浅而深的管式系统最自然。系统从单词出发，一步一步形成越来越大的句法单位，同时解析句法成分之间的关系。其结果是自动识别（构建）出来的句法结构树。很多人都知道社会媒体的混乱性，这些语言充满了错别字和行话，语法错误也随处可见。错别字和行话由词汇主义策略去对付，语法错误则可以借助自底而上的分析方法。其中的道理就是，即便是充满了语法错误的社会媒体语言，其实并不是说这些不规范的语言完全不受语法规则的束缚，无章可循。事实绝不是如此，否则人也不可理解，达不到语言交流的目的。完全没有语法的“语言”可以想象成一个随机发生器，随机抽取字典或词典的条目发射出来，这样的字串与我们见到的最糟糕的社会媒体用语也是截然不同的。事实上，社会媒体类的不规范语言（degraded text）就好比一个躁动不安的逆反期青年嬉皮士，他们在多数时候是守法的，不过情绪不够稳定，不时会”突破”一下规章法律。具体到语句，其对应的情形就是，每句话里面的多数短语或从句是合法的，可是短语（或从句）之间常常会断了链子。这种情形对于自底而上的系统，并不构成大的威胁。因为系统会尽其所能，一步一步组合可以预测（解构）的短语和从句，直到断链的所在。这样一来，一个句子可能形成几个小的句法子树（sub-tree），子树之内的关系是明确的。朋友会问：既然有断链，既然子树没有形成一个完整的句法树来涵盖所分析的语句，就不能说系统真正鲁棒了，自然语言理解就有缺陷。抽象地说，这话不错。但是在实际使用中，问题远远不是想象的那样严重。其道理就是，语言分析并非目标，语言分析只是实现目标的一个手段和基础。对于多数应用型自然语言系统来说，目标是信息抽取（Information Extraction），是这些预先定义的抽取目标在支持应用（app）。抽取模块的屁股通常坐在分析的结构之上，典型的抽取规则 by nature 是基于子树匹配的，这是因为语句可以是繁复的，但是抽取的目标相对单纯，对于与目标不相关的结构，匹配规则无需cover。这样的子树匹配分两种情形，其一是抽取子树（subtree1）的规则完全匹配在语句分析的子树（subtree2）之内（i.e. subtree2 &#62; subtree1），这种匹配不受断链的任何影响，因此最终抽取目标的质量不受损失。只有第二种情形，即抽取子树恰好坐落在分析语句的断链上，抽取不能完成，因而印象了抽取质量。值得强调的是，一般来说，情形2的出现概率远低于情形1，因此自底而上的分析基本保证了语言结构分析的鲁棒性，从而保障了最终目标信息抽取的达成。其实，对于 worst case scenario 的情形2，我们也不是没有办法补救。补救的办法就是在分析的后期把断链 patch 起来，虽然系统无法确知断链的句法关系的性质，但是patched过的断链形成了一个完整的句法树，为抽取模块的补救创造了条件。此话怎讲？具体说来就是，只要系统的设计和开发者坚持调适性开发抽取模块（adaptive extraction）的原则，部分抽取子树的规则完全可以建立在被patched的断链之上，从而在不规范的语句中达成抽取。其中的奥妙就是某样榜戏中所说的墙内损失墙外补，用到这里就是结构不足词汇补。展开来说就是，任何子树匹配不外乎check两种条件约束，一是节点之间的关系句法关系的条件（主谓，动宾，等等），另外就是节点本身的词汇条件（产品，组织，人，动物，等等）。这些抽取条件可以相互补充，句法关系的条件限制紧了，节点词汇的条件就可以放宽；反之亦然。即便对于完全合法规范的语句，由于语言分析器不可避免的缺陷而可能导致的断链（世界上除了上帝以外不存在完美的系统），以及词汇语义的模糊性，开发者为了兼顾查准率和查全率，也会在抽取子树的规则上有意平衡节点词汇的条件和句法关系的条件。如果预知系统要用于不规范的语言现象上，那么我们完全可以特制一些规则，利用强化词汇节点的条件来放宽对于节点句法关系的条件约束。其结果就是适调了patched的断链，依然达成抽取。说了一箩筐，总而言之，言而总之，对于语法不规范的语言现象，自底而上的分析策略是非常有效的，加上调适性开发，可以保证最终的抽取目标基本不受影响。 调适性上面已经提到，作为一个管式系统的开发原则，这一条很重要，它是克服错误放大（error propagation）的反制。理想化的系统，模块之间的接口是单纯明确的，铁路警察，各管一段，步步推进，天衣无缝。但是实际的系统，特别是自然语言系统，情况很不一样，良莠不齐，正误夹杂，后面的模块必须设计到有足够的容错能力，针对可能的偏差做调适才不至于一错再错，步步惊心。如果错误是 consistent/predictable 的，后面的模块可以矫枉过正，以毒攻毒，错错为正。还有一点就是歧义的保存（keeping ambiguity untouched）策略。很多时候，前面的模块往往条件不成熟，这时候尽可能保持歧义，运用系统内部的调适性开发在后面的模块处理歧义，往往是有效的。 最后，数据制导的开发原则，怎样强调都不过分。语言海洋无边无涯，多数语言学家好像一个爱玩水的孩子，跳进海洋往往坐井观天，乐不思蜀。见树木不见森林，一条路走到黑，是很多语言学家的天生缺陷。如果由着他们的性子来，系统的overhead越来越大，效果可能越来越小。数据制导是迫使语言学家回到现实，开发真正有现实和统计意义的系统的一个保证。这样的保证应该制度化，这牵涉到开发语料库（dev corpus）的选取，baseline 的建立和维护，unit testing 和 &#8230; <a href="http://www.52nlp.cn/%e5%9d%9a%e6%8c%81%e5%9b%9b%e9%a1%b9%e5%9f%ba%e6%9c%ac%e5%8e%9f%e5%88%99%ef%bc%8c%e5%bc%80%e5%8f%91%e9%b2%81%e6%a3%92%e6%80%a7nlp%e7%b3%bb%e7%bb%9f">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e5%ba%94%e8%af%a5%e7%ab%8b%e6%b3%95%e7%a6%81%e6%ad%a2%e5%88%86%e8%af%8d%e7%a0%94%e7%a9%b6' rel='bookmark' title='应该立法禁止分词研究 :=)'>应该立法禁止分词研究 :=)</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e7%bf%bb%e8%af%91%e6%8a%80%e6%9c%af%e6%b2%99%e9%be%99%e7%ac%ac%e4%b9%9d%e6%ac%a1%e6%b4%bb%e5%8a%a8' rel='bookmark' title='中文翻译技术沙龙第九次活动'>中文翻译技术沙龙第九次活动</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%80%e4%b8%aa%e4%b8%8d%e9%94%99%e7%9a%84%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86%e8%af%8d%e5%85%b8' rel='bookmark' title='一个不错的自然语言处理词典'>一个不错的自然语言处理词典</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第四部分）'>MIT自然语言处理第四讲：标注（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/%e7%ac%ac%e4%b8%80%e7%a0%96' rel='bookmark' title='第一砖，混在NLP！'>第一砖，混在NLP！</a></li>
<li><a href='http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e7%a7%91%e6%99%ae-%e4%bb%8e%e4%ba%a7%e4%b8%9a%e8%a7%92%e5%ba%a6%e8%af%b4%e8%af%b4nlp%e8%bf%99%e4%b8%aa%e8%a1%8c%e5%bd%93' rel='bookmark' title='立委科普：从产业角度说说NLP这个行当'>立委科普：从产业角度说说NLP这个行当</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-fourth-part' rel='bookmark' title='MIT自然语言处理第三讲：概率语言模型（第四部分）'>MIT自然语言处理第三讲：概率语言模型（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/acl-hlt-2011%e6%96%87%e7%ab%a0%e5%b7%b2%e5%8f%af%e4%b8%8b%e8%bd%bd' rel='bookmark' title='ACL HLT 2011文章已可下载'>ACL HLT 2011文章已可下载</a></li>
<li><a href='http://www.52nlp.cn/acl09-acceptance-rates-by-areas' rel='bookmark' title='ACL09 Full Paper各研究领域的录用情况'>ACL09 Full Paper各研究领域的录用情况</a></li>
<li><a href='http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e9%9a%8f%e7%ac%94-%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0%e5%92%8c%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86' rel='bookmark' title='立委随笔：机器学习和自然语言处理'>立委随笔：机器学习和自然语言处理</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<div>以前说过，一个 real life 自然语言处理系统，其质量和可用度除了传统的 data quality 的衡量指标查准度（precision）和查全度（recall）外，还有更为重要的三大指标：海量处理能力（scalability）, 深度（depth）和鲁棒性（robustness）。本文就简单谈一下鲁棒性。</div>
<p>为了取得语言处理的鲁棒性（robustness），一个行之有效的方法是实现四个形容词的所指：词汇主义（lexicalist）; 自底而上（bottom-up）; 调适性（adaptive）；和数据制导（data-driven）。这四条是相互关联的，但各自重点和视角不同。系统设计和开发上贯彻这四项基本原则， 是取得坚固性的良好保证。有了坚固性，系统对于不同领域的语言，甚至对极不规范的社会媒体中的语言现象，都可以应对。这是很多实用系统的必要条件。</p>
<div>先说词汇主义策略。词汇主义的语言处理策略是学界和业界公认的一个有效的方法。具体说来就是在系统中增加词汇制导的个性规则的总量。自然语言的现象是如此复杂，几乎所有的规则都有例外，词汇制导是必由之路。从坚固性而言，更是如此。基本的事实是，语言现象中的所谓子语言（sublanguage），譬如专业用语，网络用语，青少年用语，他们之间的最大区别是在词汇以及词汇的用法上。一般来说，颗粒度大的普遍语法规则在各子语言中依然有效。因此，采用词汇主义策略，可以有效地解决子语言的分析问题，从而提高系统的鲁棒性。</div>
<div>自底而上的分析方法。这种方法对于自浅而深的管式系统最自然。系统从单词出发，一步一步形成越来越大的句法单位，同时解析句法成分之间的关系。其结果是自动识别（构建）出来的句法结构树。很多人都知道社会媒体的混乱性，这些语言充满了错别字和行话，语法错误也随处可见。错别字和行话由词汇主义策略去对付，语法错误则可以借助自底而上的分析方法。其中的道理就是，即便是充满了语法错误的社会媒体语言，其实并不是说这些不规范的语言完全不受语法规则的束缚，无章可循。事实绝不是如此，否则人也不可理解，达不到语言交流的目的。完全没有语法的“语言”可以想象成一个随机发生器，随机抽取字典或词典的条目发射出来，这样的字串与我们见到的最糟糕的社会媒体用语也是截然不同的。事实上，社会媒体类的不规范语言（degraded text）就好比一个躁动不安的逆反期青年嬉皮士，他们在多数时候是守法的，不过情绪不够稳定，不时会”突破”一下规章法律。具体到语句，其对应的情形就是，每句话里面的多数短语或从句是合法的，可是短语（或从句）之间常常会断了链子。这种情形对于自底而上的系统，并不构成大的威胁。因为系统会尽其所能，一步一步组合可以预测（解构）的短语和从句，直到断链的所在。这样一来，一个句子可能形成几个小的句法子树（sub-tree），子树之内的关系是明确的。朋友会问：既然有断链，既然子树没有形成一个完整的句法树来涵盖所分析的语句，就不能说系统真正鲁棒了，自然语言理解就有缺陷。抽象地说，这话不错。但是在实际使用中，问题远远不是想象的那样严重。其道理就是，语言分析并非目标，语言分析只是实现目标的一个手段和基础。对于多数应用型自然语言系统来说，目标是信息抽取（Information Extraction），是这些预先定义的抽取目标在支持应用（app）。抽取模块的屁股通常坐在分析的结构之上，典型的抽取规则 by nature 是基于子树匹配的，这是因为语句可以是繁复的，但是抽取的目标相对单纯，对于与目标不相关的结构，匹配规则无需cover。这样的子树匹配分两种情形，其一是抽取子树（subtree1）的规则完全匹配在语句分析的子树（subtree2）之内（i.e. subtree2 &gt; subtree1），这种匹配不受断链的任何影响，因此最终抽取目标的质量不受损失。只有第二种情形，即抽取子树恰好坐落在分析语句的断链上，抽取不能完成，因而印象了抽取质量。值得强调的是，一般来说，情形2的出现概率远低于情形1，因此自底而上的分析基本保证了语言结构分析的鲁棒性，从而保障了最终目标信息抽取的达成。其实，对于 worst case scenario 的情形2，我们也不是没有办法补救。补救的办法就是在分析的后期把断链 patch 起来，虽然系统无法确知断链的句法关系的性质，但是patched过的断链形成了一个完整的句法树，为抽取模块的补救创造了条件。此话怎讲？具体说来就是，只要系统的设计和开发者坚持调适性开发抽取模块（adaptive extraction）的原则，部分抽取子树的规则完全可以建立在被patched的断链之上，从而在不规范的语句中达成抽取。其中的奥妙就是某样榜戏中所说的墙内损失墙外补，用到这里就是结构不足词汇补。展开来说就是，任何子树匹配不外乎check两种条件约束，一是节点之间的关系句法关系的条件（主谓，动宾，等等），另外就是节点本身的词汇条件（产品，组织，人，动物，等等）。这些抽取条件可以相互补充，句法关系的条件限制紧了，节点词汇的条件就可以放宽；反之亦然。即便对于完全合法规范的语句，由于语言分析器不可避免的缺陷而可能导致的断链（世界上除了上帝以外不存在完美的系统），以及词汇语义的模糊性，开发者为了兼顾查准率和查全率，也会在抽取子树的规则上有意平衡节点词汇的条件和句法关系的条件。如果预知系统要用于不规范的语言现象上，那么我们完全可以特制一些规则，利用强化词汇节点的条件来放宽对于节点句法关系的条件约束。其结果就是适调了patched的断链，依然达成抽取。说了一箩筐，总而言之，言而总之，对于语法不规范的语言现象，自底而上的分析策略是非常有效的，加上调适性开发，可以保证最终的抽取目标基本不受影响。</div>
<div>调适性上面已经提到，作为一个管式系统的开发原则，这一条很重要，它是克服错误放大（error propagation）的反制。理想化的系统，模块之间的接口是单纯明确的，铁路警察，各管一段，步步推进，天衣无缝。但是实际的系统，特别是自然语言系统，情况很不一样，良莠不齐，正误夹杂，后面的模块必须设计到有足够的容错能力，针对可能的偏差做调适才不至于一错再错，步步惊心。如果错误是 consistent/predictable 的，后面的模块可以矫枉过正，以毒攻毒，错错为正。还有一点就是歧义的保存（keeping ambiguity untouched）策略。很多时候，前面的模块往往条件不成熟，这时候尽可能保持歧义，运用系统内部的调适性开发在后面的模块处理歧义，往往是有效的。</div>
<div>最后，数据制导的开发原则，怎样强调都不过分。语言海洋无边无涯，多数语言学家好像一个爱玩水的孩子，跳进海洋往往坐井观天，乐不思蜀。见树木不见森林，一条路走到黑，是很多语言学家的天生缺陷。如果由着他们的性子来，系统的overhead越来越大，效果可能越来越小。数据制导是迫使语言学家回到现实，开发真正有现实和统计意义的系统的一个保证。这样的保证应该制度化，这牵涉到开发语料库（dev corpus）的选取，baseline 的建立和维护，unit testing 和</div>
<div>regression testing 等开发操作规范的制定以及 data quality QA 的配合。理想的数据制导还应该包括引入机器学习的方法，来筛选制约具有统计意义的语言现象反馈给语言学家。从稍微长远一点看，自动分类用户的数据反馈，实现某种程度的粗颗粒度的自学习，建立半自动人际交互式开发环境，这是手工开发和机器学习以长补短的很有意义的思路。</div>
<div>以上所述，每一条都是经验的总结，背后有成百上千的实例可以详加解说。不过，网文也不是科普投稿，没时间去细细具体解说了。做过的自然有同感和呼应，没做过的也许不明白，等做几年就自然明白了，又不是高精尖的火箭技术。</div>
<div>
<div>【相关篇什】</div>
<div>《“三好”立委要做“三有”系统》</div>
<div><a href="http://blog.sciencenet.cn/home.php?mod=space&amp;uid=362400&amp;do=blog&amp;id=510567">http://blog.sciencenet.cn/home.php?mod=space&amp;uid=362400&amp;do=blog&amp;id=510567</a></div>
<div><a href="http://blog.sciencenet.cn/home.php?mod=space&amp;uid=362400&amp;do=blog&amp;id=434811">【立委科普：从产业角度说说NLP这个行当】</a>：</div>
<div><a href="http://blog.sciencenet.cn/home.php?mod=space&amp;uid=362400&amp;do=blog&amp;id=434811">http://blog.sciencenet.cn/home.php?mod=space&amp;uid=362400&amp;do=blog&amp;id=434811</a></div>
<div>
<div><a href="http://blog.sciencenet.cn/home.php?mod=space&amp;uid=362400&amp;do=blog&amp;id=496808">《科普随笔：keep ambiguity untouched》</a></div>
<div><a href="http://blog.sciencenet.cn/home.php?mod=space&amp;uid=362400&amp;do=blog&amp;id=496808">http://blog.sciencenet.cn/home.php?mod=space&amp;uid=362400&amp;do=blog&amp;id=496808</a></div>
</div>
</div>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e5%ba%94%e8%af%a5%e7%ab%8b%e6%b3%95%e7%a6%81%e6%ad%a2%e5%88%86%e8%af%8d%e7%a0%94%e7%a9%b6' rel='bookmark' title='应该立法禁止分词研究 :=)'>应该立法禁止分词研究 :=)</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e7%bf%bb%e8%af%91%e6%8a%80%e6%9c%af%e6%b2%99%e9%be%99%e7%ac%ac%e4%b9%9d%e6%ac%a1%e6%b4%bb%e5%8a%a8' rel='bookmark' title='中文翻译技术沙龙第九次活动'>中文翻译技术沙龙第九次活动</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%80%e4%b8%aa%e4%b8%8d%e9%94%99%e7%9a%84%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86%e8%af%8d%e5%85%b8' rel='bookmark' title='一个不错的自然语言处理词典'>一个不错的自然语言处理词典</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第四部分）'>MIT自然语言处理第四讲：标注（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/%e7%ac%ac%e4%b8%80%e7%a0%96' rel='bookmark' title='第一砖，混在NLP！'>第一砖，混在NLP！</a></li>
<li><a href='http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e7%a7%91%e6%99%ae-%e4%bb%8e%e4%ba%a7%e4%b8%9a%e8%a7%92%e5%ba%a6%e8%af%b4%e8%af%b4nlp%e8%bf%99%e4%b8%aa%e8%a1%8c%e5%bd%93' rel='bookmark' title='立委科普：从产业角度说说NLP这个行当'>立委科普：从产业角度说说NLP这个行当</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-fourth-part' rel='bookmark' title='MIT自然语言处理第三讲：概率语言模型（第四部分）'>MIT自然语言处理第三讲：概率语言模型（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/acl-hlt-2011%e6%96%87%e7%ab%a0%e5%b7%b2%e5%8f%af%e4%b8%8b%e8%bd%bd' rel='bookmark' title='ACL HLT 2011文章已可下载'>ACL HLT 2011文章已可下载</a></li>
<li><a href='http://www.52nlp.cn/acl09-acceptance-rates-by-areas' rel='bookmark' title='ACL09 Full Paper各研究领域的录用情况'>ACL09 Full Paper各研究领域的录用情况</a></li>
<li><a href='http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e9%9a%8f%e7%ac%94-%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0%e5%92%8c%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86' rel='bookmark' title='立委随笔：机器学习和自然语言处理'>立委随笔：机器学习和自然语言处理</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e5%9d%9a%e6%8c%81%e5%9b%9b%e9%a1%b9%e5%9f%ba%e6%9c%ac%e5%8e%9f%e5%88%99%ef%bc%8c%e5%bc%80%e5%8f%91%e9%b2%81%e6%a3%92%e6%80%a7nlp%e7%b3%bb%e7%bb%9f/feed</wfw:commentRss>
		<slash:comments>11</slash:comments>
		</item>
	</channel>
</rss>

