单词也疯狂——漂亮的“单词云”

  单词计数应该是统计自然语言处理中一项基本的任务,MIT自然语言处理第二讲便是单词计数。一般来说,在一篇文章中,一个单词出现的次数越多,这个单词很可能就是这篇文章的关键词之一。当然,要把英文的“the”或中文的“是”这样的词排除,在自然语言处理中,这类词一般称之为“停用词”。
  对于单词计数最直观的显示就是“单词:次数”了,不过wordpress中在编辑每篇文章时,作者可以自行指定本篇文章的标签(tag),也就是关键词,因此随着博客内容的积累,标签的权重也就慢慢变化了,wordpress将其以“标签云”的形式呈现。在52nlp右边栏标签下就是“我爱自然语言处理”博客的“标签云”,如“自然语言处理”、“机器翻译”、“MIT”等都被凸显出来了,这也能说明52nlp关注着什么。这个“标签云”中的关键词除了大小不同外,布局基本是一成不变的。不过大家可以看看下面这个“单词云”,原来还能这么美丽:
  wordle 52nlp
  这个“单词云”是用wordle生成的,我将英文维基百科关于自然语言处理的整个页面加上52nlp等几个关键词输入后,就形成了这个漂亮的单词云。那么wordle是什么呢?这是wordle.net官方网站上的介绍:
  Wordle is a toy for generating “word clouds” from text that you provide. The clouds give greater prominence to words that appear more frequently in the source text. You can tweak your clouds with different fonts, layouts, and color schemes. The images you create with Wordle are yours to use however you like. You can print them out, or save them to the Wordle gallery to share with your friends.
  Wordle 是一个根据你提供的文本在线生成“单词云”的工具。对于源文本中出现频繁的单词,在“单词云”中将被凸显出来。你也可以在“单词云”中使用不同字体、布局和颜色方案等。利用Wordle产生的图片属于你,可以随你的喜好使用。你也可以把作品打印出来,或与好友分享。

  Wordle的作者在IBM工作,由于Wordle的创作主要利用了很多工作时间,因此作者声明Wordle的代码很大一部分属于IBM,并不开源。
  不过可惜的是Wordle目前不支持中文或日文这样的象形文字,作者提到了两个原因:第一,象形文字的字体庞大,这将影响Wordle的响应速度和带宽;第二,作者不明白分词算法。
  Wordle使用了Jave 网页浏览器插件,所以使用时必须保证你的浏览器支持 Java applets,我使用的是Firefox。不过真正的问题是Wordle在国内无法访问,我是通过代理访问的。以下这个图是上面那个“单词云”的一个随机变换,大家可以欣赏一下,确实很美!
  52nlp wordle
  除了手动输入这些文字外,用户也可以通过Atom, RSS Feed 或者 delicious.com将要想要产生“单词云”的网页载入。我期待着有一天可以通过Wordle随时更新52nlp的中文“标签云”。    
  Wordle的官方网站是:www.wordle.net,暂时不能直接访问。

注:原创文章,转载请注明出处“我爱自然语言处理”:www.52nlp.cn

本文链接地址:http://www.52nlp.cn/crazy-word-beautiful-word-clouds/

此条目发表在随笔分类目录,贴了, , 标签。将固定链接加入收藏夹。

单词也疯狂——漂亮的“单词云”》有 2 条评论

  1. 一个自然语言爱好者说:

    果然好漂亮,回头我也试试

    [回复]

    admin 回复:

    要是自己试的话,还有无数的选择,不会失望的,呵呵。

    [回复]

发表评论

电子邮件地址不会被公开。 必填项已用*标注