不做什么,做什么,为什么——董振东与知网

  看了董振东老师在中文信息学会成立二十七周年学术会议上的关于知网的发言“不做什么,做什么,为什么”,虽然短短两页,却写得言简意赅!董老坚守知网20年,是国内自然语言处理领域的泰山北斗!非常值得尊重和学习!这里介绍一下知网和董东!从董老的发言来看,知网应该诞生于1988年11月24日!
  
  知网(英文名称为HowNet)是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。
  1988年前后,董老曾在他的几篇文章中提出以下的观点:
  (1) 自然语言处理系统最终需要更强大的知识库的支持。
  (2) 关于什么是知识,尤其是关于什么是计算机可处理的知识,他提出:知识是一个系统,是一个包含着各种概念与概念之间的关系,以及概念的属性与属性之间的关系的系统。一个人比另外一个人有更多的知识说到底是他不仅掌握了更多的概念,尤其重要的是他掌握了更多的概念之间的关系以及概念的属性与属性之间的关系。
  (3) 关于如何建立知识库,他提出应首先建立一种可以被称为知识系统的常识性知识库。它以通用的概念为描述对象,建立并描述这些概念之间的关系。
  (4) 关于由谁来建立知识库,他指出知识掌握在千百万人的手中,知识又是那样博大精深,靠三、五个人甚至三、五十个人是不可能建成真正意义上的全面的知识库的。他提出:首先应由知识工程师来设计知识库的框架,并建立常识性知识库的原型。在此基础上再向专业性知识库延伸和发展。专业性知识库或称百科性知识库主要靠专业人员来完成。这里很类似于通用的词典由语言工作者编纂,百科全书则是由各专业的专家编写。

  关于知网的原则,董老在《不做什么,做什么,为什么》中的发言摘录如下:
 一、不做什么?
  1. 我们不做也不会做大规模中文语料的词性标注;
  2. 我们不做也不会做以词类为基本单元的中文树库;
  3. 我们不做也不会做Upenn的中文树库的训练和测试;
  4. 我们不做也不会做大规模中文语料和英文语料的逐词的全文本的语义标注;
 二.做什么?
  1. 做以意义为基本单元的中文短语的结构和意义组合的自动识别;
  2. 做中文的结构性歧义和词语的多义项歧义的“定点清除”;
  3. 继续开发基于知网的意义计算的工具包,包括机译系统;
 三、为什么?
  1. 中国人对于词性是不敏感的,这与西方语言的使用者是很不同的;
  2. 汉语的语法特性是:以意义为基础、以语序以及虚词的运用为主要语法手段、以音律为辅助语法手段的。汉语语序无论是词语、短语还是句子都是以意义为排列的依据的,而不是什么“定中”、“状中”,也不是什么“主谓宾定状”。中国人对于意义及其组合规律却是很敏感的,甚至是不学自通的。汉语的要害是语义,语义是我们的中文处理的基点。
  3. 西语是树,由树到林(句到篇章),这是由它的词类与其句法功能的一一对应,以及一个句子只能是一个谓语,分作了主谓两部分决定的;汉语不是树,而本质上更应该是图。因此用西语的树库的做法,只能解决汉语的一个子集,没有反映汉语的本质。
  4. 西方语言中词类与句法功能是严格对应的,词类分布规律较为严格,且有很高的共性;因此他们做词性标注是可取的;但是汉语,如果采用的是N、V等词性体系,可以说绝大多数的组合全是歧义的结构,且没有形态变化来帮助区分的。至于说词语的意义的歧义,无论是汉语还是,靠语义标注就更不会灵了,因为语义歧义个性极高。能够区别“包”一词的歧义的分布,与能够区别“把握”一词的歧义的分布,是没有共性的。我们不相信从30个词语“学”出来消除歧义的方法是可以成功地适用于3000个词语的消歧的。

董老简介:
 现任:
  中科院计算机语言信息中心语言知识研究室 主任
  中国中文信息学会 常务理事
  上海交通大学 兼职教授
  北方软件学院 兼职教授
 简历:
  1981.12 — 1989.08 军事科学院研究员,机器翻译研究组 组长
  1986.12 — 1989.10 五国机器翻译国际合作项目 中方技术负责人
  1989.08 — 1991.06 中国软件公司语言工程实验室 主任
  1992.06 — 1993.11 日本言语研究所 主任研究员
  1993.11 — 1997.01 新加坡国立大学系统科学研究院 研究员
  曾担任国家”七五”机器翻译科技攻关项目 主要负责人
  曾担任国家”八五”中文信息处理905平台工程项目 总体组负责人
 曾获得:
  中国人民解放军科技进步二等奖 (1988)
  国家科技进步二等奖 (1989)
  中国第一个商品化机器翻译系统的主要设计者
  中国第一个电子知识系统《知网》的设计人和开发者

  以上内容主要整理字知网主页和董老在中文信息学会成立二十七周年学术会议上的发言!

注:转载请注明出处“我爱自然语言处理”:www.52nlp.cn

本文链接地址:
http://www.52nlp.cn/donot-what-why-dong-zhendong-and-hownet/

此条目发表在自然语言处理, 计算语言学, 随笔分类目录,贴了, , , 标签。将固定链接加入收藏夹。

不做什么,做什么,为什么——董振东与知网》有 2 条评论

  1. flarefish说:

    我是做语义计算的,请问你知道知网怎么购买使用吗?我在它主页上只找到了邮箱和电话,已发过邮件,但无回复,电话也打不通~

    [回复]

    52nlp 回复:

    抱歉,这个不太清楚了;如果你有微博,可以发个微博 at 一下我,我转发一下,应该有一些老师或同学知道

    [回复]

发表评论

电子邮件地址不会被公开。 必填项已用*标注