MIT自然语言处理第二讲:单词计数(第二部分)

自然语言处理:单词计数
Natural Language Processing: (Simple) Word Counting
作者:Regina Barzilay(MIT,EECS Department, November 15, 2004)
译者:我爱自然语言处理(www.52nlp.cn ,2009年1月9日)

二、 齐夫定律(Zipf’s Law)
a) 在任何一个自然语言里第n个最常用的单词的频率与n近似成反比(The frequency of use of the nth-most-frequently-used word in any natural language is approximately inversely proportional to n)。
b) 齐夫定律表示频率(f)与排名®的关系如下(Zipf’s Law captures the relationship between frequency and rank):
   f #= 1/r(注:这里不能使用公式编辑器,近似表示)
c) 存在一个常量k表示如下(There is a constant k such that):
   f* r = k
d) 汤姆•索耶中的齐夫定律(Zipf’s Law in Tom Sawye)
单词(word) 频率(Freq.(f)) 排名(Rank (r)) f ∗ r
the     3332      1        3332
and     2972      2        5944
a      1775      3        5235
he      877      10        8770
but     410       20        8400
be      294       30        8820
there    222       40        8880
one     172      50        8600
about    158      60        9480
never    124      80        9920
Oh      116      90        10440
e) 译者注:补充说明——Wiki中的齐夫定律
 i. 从根本上讲, 齐夫定律可以表述为在自然语言的语料库里, 一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与power law probability distributions有关的事物的参考。 这个”定律”是哈佛大学的语言学家George Kingsley Zipf 发表的。
 ii. 比如,在Brown 语库中,”the” 是最常见的单词,它在这个语库中出现了大约7%(10万单词中出现69971次)。正如齐夫定律中所描述的一样,出现次数为第二位的单词”of”占了整个语库中的3.5% (36411次), 之后的是”and” (28852次)。仅仅 135 个字汇就占了Brown 语库的一半。
 iii. 齐夫定律是一个实验定律,而非理论定律。齐夫分布可以在很多现象中被观察到。齐夫分布的在现实中的起因是一个争论的焦点。齐夫定律很容易用点阵图观察,坐标为log(排名)和log(频率)。比如,”the”用上述表述可以描述为x = log(1), y = log(69971)的点。如果所有的点接近一条直线,那么它就遵循齐夫定律。最简单的齐夫定律的例子是 “1/f function”。给出一组齐夫分布的频率,按照从最常见到非常见排列,第二常见的频率是最常见频率的出现次数的1/2。第三常见的频率是最常见的频率的1/3。 第n常见的频率是最常见频率出现次数的1/n。然而,这并不精确,因为所有的项必须出现一个整数次数,一个单词不可能出现2.5次。然而,在一个广域范围内并且做出适当的近似,许多自然现象都符合齐夫定律。
f) 齐夫定律和省力原则(Zipf’s Law and Principle of Least Effort)
 i. 人类行为和省力原则(Human Behavior and the Principle of Least Effort(Zipf)):
  1. “… Zipf argues that he found a unifying principle, the Principle of Least Effort, which underlies essentially the entire human condition (the book even includes some questionable remarks on human sexuality!). The principle argues that people will act so as to minimize their probable average rate of work”. (Manning&Schutze, p.23)
 ii. 注:北京大学姜望琪老师的《Zipf与省力原则》讲得很好,部分摘录如下:
  1. 省力原则(the Principle of Least Effort),又称经济原则(the Economy Principle),可以概括为:以最小的代价换取最大的收益。这是指导人类行为的一条根本性原则。在现代学术界,第一个明确提出这条原则的是美国学者 George Kingsley Zipf。
  2. George Kingsley Zipf1902年1月出生于一个德裔家庭(其祖父十九世纪中叶移居美国)。1924年,他以优异成绩毕业于哈佛学院。1925年在德国波恩、柏林学习。1929年完成Relative Frequency as a Determinant of Phonetic Change,获得哈佛比较语文学博士学位。然后,他开始在哈佛教授德语。1931年与Joyce Waters Brown结婚。1932年出版Selected Studies of the Principle of Relative Frequency in Language。1935年出版The Psycho- Biology of Language:An Introduction to Dynamic Philology。1939年被聘为讲师。1949年出版Human Behavior and the Principle of Least Effort:An Introduction to Human Ecology。1950年9月因患癌症病逝。
  3. Zipf在1949年的书里提出了一条指导人类行为的基本原则——省力原则。Zipf在序言里指出,如果我们把人类行为纯粹看作一种自然现象,如果我们像研究蜜蜂的社会行为、鸟类的筑巢习惯一样研究人类行为,那么,我们就有可能揭示其背后的基本原则。这是他提出“省力原则”的大背景。当Zipf在众多互不相干的现象里都发现类似Zipf定律的规律性以后,他就开始思考造成这种规律性的原因。这是导致他提出“省力原则”的直接因素。在开始正式论证以前,Zipf首先澄清了“省力原则”的字面意义。第一,这是一种平均量。一个人一生要经历很多事情,他在一件事情上的省力可能导致在另一件事情上的费力。反过来,在一件事情上的费力,又可能导致在另一件事情上的省力。第二,这是一种概率。一个人很难在事先百分之百地肯定某种方法一定能让他省力,他只能有一个大概的估计。因为用词研究是理解整个言语过程的关键,而后者又是理解整个人类生态学的关键,他的具体论证从用词经济开始。Zipf认为,用词经济可以从两个角度来讨论:说话人的角度和听话人的角度。从说话人的角度看,用一个词表达所有的意义是最经济的。这样,说话人不需要花费气力去掌握更多的词汇,也不需要考虑如何从一堆词汇中选择一个合适的词。这种“单一词词汇量”就像木工的一种多用工具,集锯刨钻锤于一身,可以满足多种用途。但是,从听话人角度看,这种“单一词词汇量”是最费力的。他要决定这个词在某个特定场合到底是什么意思,而这几乎是不可能的。相反,对听话人来说,最省力的是每个词都只有一个意义,词汇的形式和意义之间完全一一对应。这两种经济原则是互相冲突、互相矛盾的。Zipf把它们叫做一条言语流中的两股对立的力量:“单一化力量”(the Force of Unification)和“多样化力量”(the Force of Diversification)。他认为,这两股力量只有达成妥协,达成一种平衡,才能实现真正的省力。事实正像预计的那样。请看Zipf的论证:假如只有单一化力量,那么任何语篇的单词数量(number)都会是1,而它的出现次数(frequency)会是100%。另一方面,假如只有多样化力量,那么每个单词的出现次数都会接近1,而单词总数量则由语篇的长度决定。这就是说, number和frequency是衡量词汇平衡程度的两个参数。

g) 其他规律(Other laws):
 i. 词义分布(Word sense distribution);
 ii. 音位分布(Phonemes distribution);
 iii. 词共现模式(Word co-occurrence patterns);
h) 近似服从齐夫定律的例子(Examples of collections approximately obeying Zipf’s law):
 i. 访问网页的频率(Frequency of accesses to web pages);
 ii. 居住点的规模(Sizes of settlements);
 iii. 个人收入的分布(Income distribution amongst individuals);
 iv. 地震的大小(Size of earthquakes);
 v. 演奏中的音乐符号(Notes in musical performances);

未完待续:第三部分

附:课程及课件pdf下载MIT英文网页地址:
   http://people.csail.mit.edu/regina/6881/

注:本文遵照麻省理工学院开放式课程创作共享规范翻译发布,转载请注明出处“我爱自然语言处理”:www.52nlp.cn

本文链接地址:
http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-second-part/

此条目发表在MIT自然语言处理, 自然语言处理, 语料库分类目录,贴了, , , , , , , 标签。将固定链接加入收藏夹。

发表评论

电子邮件地址不会被公开。 必填项已用*标注