自然语言处理

应该立法禁止分词研究 :=)

作者liwei999

12 月 8, 2011

RE: 分词当然是第一关。这个没弄好，其他的免谈

现如今中文自动分析的瓶颈早已不是分词了

日期: 12/05/2011 15:43:43

半个世纪折腾进去无数的人力了。是 overdone，很大程度上是科研财主（sponsors）和科学家共同的失职。应该立法禁止分词研究（kidding :=)），至少是禁止用纳税人钱财做这个研究。海量词库可以解决分词的90%以上的问题。

统计模型可以解决几个百分点。硬写规则或者 heuristics 也可以达到类似的效果。

再往上，多一个百分点少一个百分点又有什么关系？对于应用没有什么影响，as long as things can be patched and incrementally enhanced over time.

或者任其错误下去（上帝允许系统的不完美），或者在后面的句法分析中 patch。很多人夸大了管式系统的错误放大问题（所谓 error propagation in a pipeline system）, 他们忽略了系统的容错能力（robustness through adaptive modules）,这当然要看系统设计者的经验和智慧了。中文处理在分词之后，有人做了一些短语识别（譬如 Base NP 抱团）和专有名词识别（Named Entity Tagging），再往下就乏善可陈了。

深入不下去是目前的现状。我要做的就是镜子说的“点入”。先下去再说，做一个 end-to-end system，直接支持某个app，用到大数据（big data）上，让数据制导，让数据说话。先用上再说，至少尽快显示其初步的value，而不是十年磨一剑。

http://bbs.sciencenet.cn/home.php?mod=space&uid=362400&do=blog&id=515339

作者 liwei999

自然语言处理

《应该立法禁止分词研究 :=)》有11条评论

liwei999说道：

2011年12月8号 17:00

在下立委，黄埔一期的老革命啦。先拜一下山头。也谢谢那位曾经转载我的两篇博文的小同行。后生可畏，请多关照。

刚来就放了一炮，炮打司令部。看不顺眼的，请砸砖。

看来这里是中文NLP爱好者的园地。今后这方面的随笔，除了我的科学网博客外，也在这里发，欢迎批评。

[回复]
jiuren 回复:
8 12 月, 2011 at 17:29
立委先给咱们普及下现在分词发展成啥样了？

[回复]
liwei999 回复:
9 12 月, 2011 at 05:35
对不住这位朋友。网上的文字都是随兴之所至，我从来不写命题作文，包括我自己的命题。有时候兴趣来了，就说自己下一篇打算写什么什么，算是自我命题，可是过了两天，一个叉打过去，就没那个兴致和时间了，也就作罢。

赶上什么写什么，这就是上网的心态。平时打工已经够累了，上网绝不给自己增加负担。

何况网文也不给稿费，：=）

[回复]
52nlp 回复:
9 12 月, 2011 at 09:04
立委老师都在这里活动，太荣幸了！您的文章读来总有一种一吐为快的感觉，很过瘾！这里有啥不顺眼的，也欢迎您多多批评！

[回复]
liwei999 回复:
9 12 月, 2011 at 09:25
谢谢你提供这个平台。52NLP 也是很有创意的品牌。

董老师是黄埔教官啊，是我很敬重的前辈。看到他还在做讲座，很感动。

[回复]
52nlp 回复:
9 12 月, 2011 at 09:44
嗯，董老师是我非常敬佩的老前辈！
您可有新浪微博的帐号？我把文章链接转到微博上去了，但是没有找到您的帐号，有NLPers开始评论了，可以看看。

zzl 回复:
9 12 月, 2011 at 11:57
一年前就关注立委老师了，刚接触nlp时，看到了老师的关于信息抽取的科普，随后就确定了IE这个方向，感谢您！

[回复]
liwei999 回复:
9 12 月, 2011 at 13:52
IE 是朝阳方向，值得做。

[回复]
xcv58说道：

2011年12月8号 22:32

我认为是这个研究体制的错误，不应该怪罪到分词研究上。
现在的高校与研究所里进行的所谓研究绝大多数是向着论文看的，不考虑实际问题，一上来就看别人的论文怎么写的，别人的论文发到了哪个会议哪个期刊，我们如何能让自己的数据比他/她的好看点，然后好写论文。
按照这种心态，应该立法禁止的不是研究分词，而是做研究本身。

[回复]
kingsten_88说道：

2011年12月9号 08:00

我开始研究NLP时就想到了，NLP起始于分词，也终止于分词。就是说，NLP系统的终极目标就是分词。应该本着“假设-反馈-修正”的机制来进行词语处理，并没有一个专门用于（one-shoot）分词的独立模块。这个想法直到今天依旧那么顽固地存在和指导着我。

[回复]
Deng说道：

2013年01月6号 21:06

计算机真能理解自然语言吗？如果是后生，我建议看看换个角度去思考自然语言及人工智能问题。外国研究人脑很多年，真正的理解，应该要等到哲学和人脑科学的发展到一定程度。现在的计算机方面研究还有应用价值的，但它达不到我们的终极追求。

[回复]

应该立法禁止分词研究 :=)

作者liwei999

作者 liwei999

相关文章

新浪张俊林：大语言模型的涌现能力——现象与解释

中科院张家俊：ChatGPT中的提示与指令学习

“国产类 ChatGPT ”所存在的差距与挑战-专家圆桌

《应该立法禁止分词研究 :=)》有11条评论

发表回复

You missed

新浪张俊林：大语言模型的涌现能力——现象与解释

中科院张家俊：ChatGPT中的提示与指令学习

“国产类 ChatGPT ”所存在的差距与挑战-专家圆桌

探索大语言模型垂直化训练技术和应用-陈运文

作者liwei999

相关文章：

作者 liwei999

相关文章

《应该立法禁止分词研究 :=)》有11条评论

发表回复

You missed