标签归档:夸夸语料

夸夸聊天机器人升级:从随机到准个性化

来,你们要的夸夸聊天机器人升级了,针对问题内容进行“准个性化”回答,目前可以凑合用,但是聊胜于无,欢迎来撩,使用方法,关注公众号AINLP,后台对话即可:

自从《一行Python代码实现夸夸聊天机器人》发布后,有不少同学期待着夸夸聊天机器人的升级。但是巧妇难为无米之炊,所以我准备了夸夸语料库:《为了夸夸聊天机器人,爬了一份夸夸语料库》。有了夸夸问答语料之后,针对聊天机器人或者智能问答就有很多方法可以操作,最直接的一个想法就是计算问题与夸夸语料库中的标题(以及内容)的语义相似度,然后取最匹配问题的答案作为结果返回。

我大概就是是这样操作的,首先对语料库进行了简单的清洗和重组,清洗掉没有答案的,以及作者自己回答的答案,然后将每个问题的答案组合为list作为随机答案。不过更直接一些,只计算问题和标题的相似度,按一定的阈值进行过滤,所以这个版本,还存在很多问题,大家先凑合着用,后续还有升级计划。

这方面比较关键的一个问题就是相似问题匹配或者句子语义相似度计算。关于文本相似度,词语或者短语级别的语义相似度在词向量范畴下解决的很漂亮,感兴趣的同学可以体验:《相似词查询:玩转腾讯 AI Lab 中文词向量》,但是到了句子级别或者文档级别,目前貌似还没有很漂亮的解决方案,或者我调研的不够,有线索的同学欢迎留言探讨。

最后关于如何使用这个夸夸聊天机器人,首先关注我们的公众号AINLP,然后后台和聊天机器人对话即可,不过需要一些关键字触发夸夸模式,譬如“。。。求夸。。”, “。。。求赞。。”, “。。。,求鼓励”, “。。。, 求表扬”, 或者 “。。夸我。。。。”, “。。。鼓励我。。。”等等,否则进入闲聊模式。关于聊天机器人,目前希望大家不要抱太高的期望,把它当傻子即可:

聊天过程中如果问题没有匹配上或者过于简单,会回退到随机模式:

当然,这里选的case一定是准备过的,还有一些bad case没有给你们看,欢迎测试,欢迎建议,特别是如何匹配问题域的建议,非常欢迎。
继续阅读

Start your future on Coursera today.