【研发笔记:粤语文句的情报挖掘】

在研发社会媒体舆情挖掘的中文系统过程中,遇到一些粤语的帖子,看上去似懂非懂的。从机器处理角度来看,方言与行业用语类似,算是一种子语言(sublanguage),可以看作是普通话的变体。其中绝大多数的区别在词汇层,句子结构大同小异。于是决定采用先把粤语文句自动翻译成普通话的方法,然后再 feed 到普通话的主体系统去做分析和挖掘,这样比较简便可行,系统接口清晰,主体中文系统无需改变即可识得广东话。研发一个句对句自动翻译系统作为前处理太过繁难,对于子语言而言,有些牛刀宰鸡了。于是决定退回到上个世纪50年代的词对词第一代机器翻译(word-for-word MT)的路子上来(见【立委科普:机器翻译】),再加上一点儿有限语境消歧(local context disambiguation),应该是可以基本满足要求的:我们不追求完美的翻译,只要翻译过来的普通话大体可读就差不多了。这样的项目不大不小,需要语言数据分析,编写机器翻译词典,上机调试,正好适合做研究生的暑期实习。一个暑假下来,在指导暑期实习生的过程中,我这个原来对粤语一窍不通的语言学家,也差不多成了一个半吊子粤语实践者了:虽然不会发音,但看文字大体89不离10了,也算是收获。从系统来看,这个项目完成得不错,编写了一部6000多词条的机器翻译转换(翻译)词典,增加了两个粤语上下文规则的小模块,加上编写出一个粤语识别的程序,可以宣称支持粤语这个子语言的处理和舆情挖掘了。测试结果看也很不错,可以对付80%以上的粤语现象,今后的工作主要是词典维护和在调试中慢慢提高质量(incremental enhancement),无需大手术,感觉对这个方案的设计和执行基本满意。


由于我们的系统是面对社会媒体,粤语处理的难度比传统媒体(譬如香港、广东的地方报纸上的文字)大了很多。很多粤语特用的汉字在社会媒体上都是别字,很多人为了打字方便,就胡乱用别字代替(如 【既】 代替 【嘅】,【系】代替【喺】,【左】代【咗】,【比】【俾】,等等),只要读起来差不多音的,怎么方便怎么来,简直是随心所欲 [令人发指],没有什么规范。最头疼的是这些别字往往是普通话里也常用的汉字,这造成了很多歧义。经过努力,我们还是基本搞定了这些混淆杂乱的粤语社会媒体的自动规整和翻译的工作。

下面演示一些粤语帖子的自动翻译实例:
點解學生就要平比佢?佢地咩資格去玩器材
佢呃人你又知
搏大霧哩樣野真係唔要得、有欺詐成份
佢話你知?
反正你咁八又要投訴, 點解唔問下當時人
4s冇啦啦壞左
係咪架, 睇下先
好似幾靚, 快啲俾我睇
琴日係唔知邊到早就見到,我仲以為又係fake
官網既可信性好高
而且 Apple 不嬲都唔會一早更新定網站
作為iphone的fans明知是呃錢也會買的
估佢唔到
真係唔講都唔知
有冇多d
所以~佢應該食埋煙
咁樣佢會變成炸蛋人架喎
香港迪士尼真係睇唔到有咩前景
======》
            为什么學生就要平比他?他们什么資格去玩器材
他骗人你又知
混水摸魚这样东西真是要不得、有欺詐成份
他告诉你?
反正你这样八又要投訴, 为什么不問下當時人
4s无端壞了
是不是架, 看下先
好像蛮漂亮, 快一些给我看
昨日是不知哪里早就見到, 我还以為又是fake
官網的可信性好高
而且 Apple 向来都不會早就更新定網站
作為iphone的fans明知是骗钱也會買的
估他不到
真是不講都不知
有没有多d
所以~他應該吃完煙
这样樣他會變成炸蛋人架喔
香港迪士尼真是看不到有什么前景
下面是粤语帖子大体转化为普通话以后的的自动句法分析而得的树形图演示:

最后是从粤语帖子中挖掘出来的关于产品/品牌的客户评价或舆情:
乌拉,#we support 粤语# 拉!~[骄傲][得意] #NLP #IE #AI #Cantonese @52nlp @liwei999 @米拉宝鉴 @立委
有老友提供了地道的人工翻译,谨致谢忱。
帮你翻译一下

日期: 09/28/2012 00:02:02

點解學生就要平比佢?佢 地咩資格去玩器材
为什么是学生就得给个便宜价格?他们(有)什么资格去玩器材?

佢呃人你又知
他骗人你也知道?

搏大霧哩樣野真係唔要得、有欺詐成份
蒙混过关这样的行为真是要不得,算是欺诈行为

佢話你知?
他告诉你的?

反正你咁八又要投訴, 點解唔問下當時人
反正你那么八卦(罗嗦)又要投诉,为啥不去问下当事人?

4s冇啦啦壞左
4s无缘无故坏了

係咪架, 睇下先
是不是的啊?看看先

好似幾靚, 快啲俾我睇
好象挺漂亮,快点给我看

琴日係唔知邊到早就見到,我仲以為又係fake
昨天在某个地方早就看到过了,我还以为又是fake的

官網既可信性好高
官网的可信度很高

而且 Apple 不嬲都唔會一早更新定網站
而且Apple 从来都不会提早更新好网站

作為iphone的fans明知是呃錢也會買的
作为iphone的fans明知是骗钱也会买的

估佢唔到
猜不到他(以后的行为)

真係唔講都唔知
真是(别人)不说(我)都不知道

有冇多d
有没多一些啊

所以~佢應該食埋煙
所以,他应该也学会吸烟

咁樣佢會變成炸蛋人架喎
这样他会变成炸弹人的啊

香港迪士尼真係睇唔到有咩前景
香港迪士尼真是看不到有什么前景

对比一下机器的翻译质量。。。

http://blog.sciencenet.cn/blog-362400-617394.html

此条目发表在自然语言处理分类目录。将固定链接加入收藏夹。

【研发笔记:粤语文句的情报挖掘】》有 1 条评论

  1. Nicole说:

    大神,求粤语语料!这些语料可以从哪里搜集到呢?

    [回复]

发表评论

电子邮件地址不会被公开。 必填项已用*标注