月归档:一月 2012

NLP资源共享盛宴

“科技创新,方法先行”。为响应科技部“十二五”关于加强科技资源共享的号召,中科院自动化所“自动化学科创新思想与科学方法研究(课题编号:2009IM020300)”课题 与国内专业的科研数据共享平台-数据堂 网站展开全面合作,将自动化学科数字化知服务网络平台的部分后台数据,以及项目中的一些其他数据资源,免费提供给自然语言处理等相关领域同仁从事科研使用。数据专区地址是:http://www.datatang.com/member/5878。如您论文或项目使用该专区数据,请注明数据来自“自动化学科创新思想与科学方法研究”课题,编号2009IM020300,以及数据堂数据地址http://www.datatang.com/member/5878。 该专区主要包括以下几部分资源: 1.面向计算机学科内学术共同体相关研究的中文DBLP资源 2.面向人物同名消歧研究的的中文DBLP资源 3.万篇随机抽取论文中文DBLP资源 4.以自然语言处理领域中文期刊论文为主导的中文DBLP资源 5.面向文本分类研究的中英文新闻分类语料 6.文本分类程序(含开源代码) 7.面向汉语姓名构词研究的10万中文人名语料库 8.以IG卡方等特征词选择方法生成的多维度ARFF格式英文VSM模型 9.以IG卡方等特征词选择方法生成的多维度ARFF格式中文VSM模型 欢迎自动化学科数字化知识服务网络平台:http://autoinnovation.ia.ac.cn 欢迎大家继续关注自动化学科创新方法课题,我们的联系方式 http://weibo.com/autoinnovation, 欢迎大家关注数据堂: http://weibo.com/datatang 祝大家新春快乐,龙年如意!

发表在 语料库 | 留下评论

后生可畏,专业新人对《迷思》争论表面和稀泥,其实门儿清

“专业新人” (early stage researcher)也别被我的夸赞冲昏头脑。门道门道,有门有道。门儿清,不等于道儿清。做到门儿情,只要聪颖和悟性即可,而道儿清要的却是耐性、经验、时间,屡战屡败、屡败屡战的磨练,而且还要有运气。是为冰冻之寒也。 On Thu, Dec 29, 2011 G wrote: >> As you titled yourself early stage researcher, I'd recommend you a recent dialog on something related - http://blog.sciencenet.cn/home.php?mod=space&uid=362400&do=blog&id=523458. >> He has a point as an experienced practitioner. >> … 继续阅读

发表在 自然语言处理 | 留下评论

NLP 历史上最大的媒体误导:成语难倒了电脑

NLP 最早的实践是机器翻译,在电脑的神秘光环下,被认为是 模拟或挑战 人类智能活动的机器翻译自然成为媒体报道的热点。其中有这么一个广为流传的机器翻译笑话,为媒体误导之最: 说的是有记者测试机器翻译系统,想到用这么一个出自圣经的成语: The spirit is willing, but the flesh is weak (心有余而力不足) 翻译成俄语后再翻译回英语就是: The whiskey is alright, but the meat is rotten(威士忌没有问题,但肉却腐烂了) 这大概是媒体上流传最广的笑话了。很多年来,这个经典笑话不断被添油加醋地重复着,成为NLP的标准笑柄。 然而,自然语言技术中没有比成语更加简单的问题了。成语是NLP难点的误解全然是外行人的臆测,这种臆测由于两个因素使得很多不求甚解的人轻信了。其一是NLP系统的成语词典不够全面的时候造成的类似上述的“笑话”,似乎暴露了机器的愚蠢,殊不知这样的“错误”是系统最容易 debug 的:补全词典即可。因为成语 by definition 是可列举的(listable),补全成语的办法可以用人工,也可以从语料库中自动习得,无论何种方式,都是 tractable 的任务。语言学告诉我们,成语的特点在于其不具有语义的可分解性(no/little semantic compositianlity),必须作为整体来记忆(存贮),这就决定了它的非开放性(可列举)。其二是对于机器“理解”(实际是一种“人工智能”)的误解,以为人理解有困难的部分也必然是机器理解的难点,殊不知两种“理解”根本就不是一回事。很多成语背后有历史故事,需要历史知识才可以真正理解其含义,而机器是没有背景知识的,由此便断言,成语是NLP的瓶颈。 事实是,对于 NLP,可以说,识别了就是理解了,而识别可枚举的表达法不过是记忆而已,说到底是存储量的问题。可是确实有人天真到以为由冷冰冰的无机材料制作的“电脑”真地具有人脑那样的自主理解 能力/机制。  引用 … 继续阅读

发表在 自然语言处理 | 9 条评论