作者归档:ダンゴ虫

关于ダンゴ虫

ruby nlp beginner

关于词典结构的思考

本科毕设那会儿搞的是中文分词。最后象征性地用c++写了个最大正向匹配的算法,用MFC写了个图形界面交差了。
回忆起来,当时看过不少关于讨论词典该如何组织,如何存放的期刊论文。现在想来无非就是hash。什么首字什么次字,什么利用发音,五花八门呵呵。
其实说到底,现在的PC内存,就那么点量词典,直接全部hash进去不就完了么。至于hash函数怎么设计?使用ruby
hash=Hash.new(0)
hash[str].....................不就好了么。
窃以为那些讨论组织结构的文章,貌似也就是近几年的东西,可算是滥竽充数?或者是我想得太肤浅?
个人意见。 欢迎拍砖。