中文处理的迷思之一：切词特有论

电脑的中文处理业界有很多广为流传似是而非的迷思。在今后的随笔系列中，准备提出来分别讨论。

迷思之一：切词是中文（或东方语言）处理特有的前提，因为中文书写不分词。

切词作为中文处理的一个先行环节，是为了模块化开发的方便，这一点不错。但它根本就不特有。

任何自然语言处理都有一个先行环节，叫 tokenization，就是把输入的字符串分解成为词汇单位：无论何种书面语，没有这个环节，辞典的词汇信息就无以附着，在词汇类别的基础上的有概括性的进一步句法语义分析就不能进行。中文切词不过是这个通用的 tokenization 的一个案例而已，没有什么“特有”的问题。

有说：中文书写不分词，汉字一个挨一个，词之间没有显性标识，而西文是用 space（空白键）来分词的，因此分词是中文处理的特有难题。

这话并不确切，语言学上错误更多。具体来说：

1 汉语词典的词，虽然以多字词为多数，但也有单字词，特别是那些常用的功能词（连词、介词、叹词等）。对于单字词，书面汉语显然是有显性标志的，其标志就是字与字的自然分界（如果以汉字作为语言学分析的最小单位，语言学上叫语素，其 tokenization 极其简单：每两个字节为一个汉字），无需 space.

2 现代汉语的多字词（如：中华人民共和国）是复合词，本质上与西文的复合词（e.g. People's Republic of China）没有区别，space 并不能解决复合词的分界问题。无论中西，复合词都主要靠查词典来解决，而不是靠自然分界（如 space）来解决（德语的名词复合词算是西文中的一个例外，封闭类复合词只要 space 就可以了，开放类复合词则需要进一步切词，叫 decompounding）。如果复合词的左边界或者右边界有歧义问题（譬如：“天下” 左右边界都可能歧义， e.g. 今天下雨；英语复合副词 "in particular" 的右边界可能有歧义：e.g. in particular cases），无论中西，这种歧义都需要上下文的帮助才能解决。从手段上看，中文的多字词切词并无任何特别之处，英语 tokenization 用以识别复合词 People's Republic of China 和 in particular 的方法，同样适用于中文切词。

中文处理的迷思之一：切词特有论

作者liwei999

作者 liwei999

相关文章

新浪张俊林：大语言模型的涌现能力——现象与解释

中科院张家俊：ChatGPT中的提示与指令学习

“国产类 ChatGPT ”所存在的差距与挑战-专家圆桌

发表回复

You missed