作者归档:王 增才

关于王 增才

致力于自然语言理解研究(包括词库、中文分词、句法、语义等方面的研究,开发的产品涉及智能搜索引擎、机器翻译、专家咨询系统、机器人语言系统等人工智能领域)。

共建词库等基础NLP资源的倡议

Deep Learning Specialization on Coursera

笔者深感免费共享的中文NLP资源的匮乏,有意将自己整理的词库等NLP资源分享出来,希望能获得更多的NLP爱好者的响应与支持,群策群力,共建NLP基础资源(如常用词语,常用姓氏,语义词典,反义词词典,近义词词典,句法库等等)。

笔者的这个倡议,刚在“自然语言理解一”QQ群发出,即得到了“总督”、“雨霁”等等的支持。“总督”建议:根据不同的应用,通过大家的讨论,确定词性标准,建立不同的词库,如为句子的树库而标,为统计语言现象而标,为教学目的而标等等。“雨霁”建议:限定范围,目的性强一些,为某些领域、专属名词建词库,如地名、机构名。

在此,抛砖引玉,希望大家能积极地拍砖扔鸡蛋(:))。

附我的词库的截图:

基于哈希表和二叉树的词典研究(一)

Deep Learning Specialization on Coursera

作者:王增才

邮箱:wzc@zencai.com

摘要 词典是许多中文分词系统的一个重要的组成部分。其查询速度直接影响到分词系统的处理速度。本文使用汇编语言设计了一种高效的基于哈希表和二叉树的分词词典。

关键词 中文分词 哈希表 二叉树 词典

Study on Chinese Word Segmentation Based on Hash Table and Binary Tree

Abstract The dictionary mechanism serves as one of the important components in a lot of Chinese word segmentation systems. Its perfomance influences the segmentation speed significantly. In this paper,we design a highly efficient dictionary mechanism in Assemble language, which is based on Hash table and binary tree.

Key words Chinese segmentation; Hash table; Binary tree; Dictionary

一 介绍

虽然有人提出了不需要词典的中文分词算法,如胥桂仙等人利用统计提出了基于“找最长字共现”原则的分词算法。[2] 但是,不管是基于规则方法还是统计方法,大部分中文分词算法都有自己的词典。词典的查询速度直接影响到分词系统的处理速度。本文使用汇编语言(编译器MASM32V10)设计了一种高效的基于哈希表和二叉树的分词词典。该算法为:将所有的汉字利用哈希表存储,即根据汉字机内码的编码规律,通过直接寻址哈希函数实现词语首字的快速查找,其查找时间为O(1);然后将首字相同的词语用二叉树存储;最后将二叉树的内存地址与哈希表进行绑定。 继续阅读