分类目录归档:计算语言学

CIKM Competition数据挖掘竞赛夺冠算法陈运文

背景

CIKM Cup(或者称为CIKM Competition)是ACM CIKM举办的国际数据挖掘竞赛的名称。CIKM全称是International Conference on Information and Knowledge Management,属于信息检索和数据挖掘领域的国际著名学术会议,由ACM SIGIR分会(ACM Special Interest Group on Information Retrieval)主办。

随着数据挖掘技术越来越重要,CIKM会议的影响力也水涨船高,逐渐逼近KDD、WWW、ICDE。2014年是CIKM第一次在中国大陆举办,邀请了Google大神Jeff Dean,微软EVP陆奇博士和德国Max Planck Institute的Gerhard Weikum教授担任Keynote Speaker,盛况空前。CIKM很重视工业界的运用,既有面向工业届的Tutorial/Workshop,也有CIKM Cup这样面向实战的国际数据挖掘竞赛(类似另一个著名的数据挖掘竞赛KDD Cup),比赛使用真实的工业界数据和应用课题,让全世界的数据挖掘选手们一较高下。

cikm

今年的CIKM Cup竞赛的题目是自动识别用户的查询意图(Query Intent Detection,QID),主办方提供了来自百度线上的真实的用户查询和点击的数据(总行数为6141万行),竞赛目标是根据已标注的用户行为数据,来判断其中用户查询时的真实意图,要求识别的准确率和召回率越高越好。比赛历时2个半月,共吸引了520支队伍参赛,最终我们的队伍Topdata脱颖而出,所提出的算法以F1值0.9296排名Final Leaderboard第一获得冠军!

topdata

应很多朋友的邀请,发表这篇文章详细介绍我们使用的方法,给对大数据挖掘算法感兴趣的朋友们作个参考。另外在领奖现场我们和其他参赛队伍作了愉快的交流,因此本文也吸收了其他队伍的一些优秀思路,可以看作是这次竞赛整体方法和对策的总结。文章最后还附上了一些我个人的参赛感言(陈运文)。
继续阅读

概率语言模型及其变形系列-PLSA及EM算法

本系列博文介绍常见概率语言模型及其变形模型,主要总结PLSA、LDA及LDA的变形模型及参数Inference方法。初步计划内容如下

第一篇:PLSA及EM算法

第二篇:LDA及Gibbs Samping

第三篇:LDA变形模型-Twitter LDA,TimeUserLDA,ATM,Labeled-LDA,MaxEnt-LDA等

第四篇:基于变形LDA的paper分类总结

第五篇:LDA Gibbs Sampling 的JAVA实现

第一篇 PLSA及EM算法

[Update 2012/12/21 为了解决部分朋友反映的网页图片无法显示的问题,更新PDF版本

下载地址 PLSA及EM算法-yangliuy]

前言:本文主要介绍PLSA及EM算法,首先给出LSA(隐性语义分析)的早期方法SVD,然后引入基于概率的PLSA模型,其参数学习采用EM算法。接着我们分析如何运用EM算法估计一个简单的mixture unigram 语言模型和混合高斯模型GMM的参数,最后总结EM算法的一般形式及运用关键点。对于改进PLSA,引入hyperparameter的LDA模型及其Gibbs Sampling参数估计方法放在本系列后面的文章LDA及Gibbs Samping介绍。
继续阅读

EMNLP-CoNLL 2012 List of accepted papers

EMNLP-CoNLL 2012(Conference on Empirical Methods in Natural Language Processing and Natural Language Learning)会议将于2012年7月12-14日在韩国济州岛举行,以下是会议录用文章的情况,原文请参考官方网站:http://emnlp-conll2012.unige.ch/papers.html

继续阅读

ACL HLT 2011文章已可下载

距ACL HLT 2011大会还有几天,不过目前大会的论文已经可以在ACL Anthology上下载了,以下是来自于Min-Yen Ka的群邮件。

一、ACL 2010大会论文集:
Proceedings of the 49th Annual Meeting of the Association for
Computational Linguistics: Human Language Technologies can be found
here:

http://www.aclweb.org/anthology/P/P11/

二、Workshop论文集:
The proceedings of co-located events and workshops to ACL HLT 2011 are now available online.

http://www.aclweb.org/anthology/W/W11/

Proceedings of BioNLP 2011 Workshop
http://www.aclweb.org/anthology/W/W11/#0200

Proceedings of the Fifteenth Conference on Computational Natural
Language Learning
http://www.aclweb.org/anthology/W/W11/#0300

Proceedings of the 5th Linguistic Annotation Workshop
http://www.aclweb.org/anthology/W/W11/#0400

Proceedings of the Workshop on Automatic Summarization for Different
Genres, Media, and Languages
http://www.aclweb.org/anthology/W/W11/#0500

Proceedings of the 2nd Workshop on Cognitive Modeling and
Computational Linguistics
http://www.aclweb.org/anthology/W/W11/#0600

Proceedings of the Workshop on Language in Social Media (LSM 2011)
http://www.aclweb.org/anthology/W/W11/#0700

Proceedings of the Workshop on Multiword Expressions: from Parsing and
Generation to the Real World
http://www.aclweb.org/anthology/W/W11/#0800

Proceedings of the ACL 2011 Workshop on Relational Models of Semantics
http://www.aclweb.org/anthology/W/W11/#0900

Proceedings of Fifth Workshop on Syntax, Semantics and Structure in
Statistical Translation
http://www.aclweb.org/anthology/W/W11/#1000

Proceedings of TextGraphs-6: Graph-based Methods for Natural Language
Processing
http://www.aclweb.org/anthology/W/W11/#1100

Proceedings of the 4th Workshop on Building and Using Comparable
Corpora: Comparable Corpora and the eb
http://www.aclweb.org/anthology/W/W11/#1200

Proceedings of the Workshop on Distributional Semantics and
Compositionality
http://www.aclweb.org/anthology/W/W11/#1300

Proceedings of the Sixth Workshop on Innovative Use of NLP for
Building Educational Applications
http://www.aclweb.org/anthology/W/W11/#1400

Proceedings of the 5th ACL-HLT Workshop on Language Technology for
Cultural Heritage, Social Sciences,
and Humanities
http://www.aclweb.org/anthology/W/W11/#1500

Proceedings of the Workshop on Monolingual Text-To-Text Generation
http://www.aclweb.org/anthology/W/W11/#1600

Proceedings of the 2nd Workshop on Computational Approaches to
Subjectivity and Sentiment Analysis (WASSA 2.011)
http://www.aclweb.org/anthology/W/W11/#1700

Proceedings of BioNLP Shared Task 2011 Workshop
http://www.aclweb.org/anthology/W/W11/#1800

Proceedings of the Fifteenth Conference on Computational Natural
Language Learning: Shared Task
http://www.aclweb.org/anthology/W/W11/#1900

The proceedings of the upcoming SIGDIAL 2011 Conference is now available on the ACL Anthology, here:

http://www.aclweb.org/anthology/W/W11/#2000

The SIGDIAL Anthology page also has been updated.
继续阅读

From Google Research Blog: Google at ACL 2011

  自然语言处理与计算语言学的盛会ACL 2011即将在美国俄勒冈州波特兰市举行,而Google Research Blog在昨天发表了一篇“Google at ACL 2011”,给大家及时通报了今年Google在ACL 2011上的参与情况。粗略的看了一下,Google今年在ACL上发表的Paper涉及Part-of-Speech Tagging, Named Entity Recognition, Context-Free Parsing, Translation等自然语言处理的基础领域,值得NLPer们一阅。我是在Google Reader上看到的,直接看原文的话在国内可能需要“翻墙”,为了给大家节省一点“翻墙”的时间以及活跃这里的气氛,以下就全文转载了!
继续阅读

ACL-HLT 2011: List of Accepted Papers

  第49届国际计算语言学学术会议(Annual Meeting of the Association for Computational Linguistics,ACL)和人类语言技术会议(Human Language Technology,HLT)的联合会议(ACL-HLT 2011: Joint Conference of the 49th Annual Meeting of the Association for Computational Linguistics and the Human Language Technologies Conference) 将于2011年6月19号至24号在美国俄勒冈州波特兰市召开,目前ACL-HLT 2011官方网站上已经给出了今年的long paper录用情况,以下转载自ACL-HLT 2011的官方网站上的“List of Accepted Papers”。
继续阅读

Coling 2010 文章已可下载

  自然语言处理与计算语言学的盛会COLING 2010——第23届国际计算语言学大会(International Conference on Computational Linguistics)——正在北京举行,目前会议论文已经可以在ACL Anthology上下载,以下来自于ACL Anthology负责人Min-Yen Kan的邮件。 继续阅读

ACL 2010 Best Paper Awards

  ACL 2010官方主页似乎在前几天已经确定好了本次大会的Best Paper Awards,在其Awards页面里,不仅给出了本次大会的Best long paper, Best short paper, IBM Best student paper,而且包括其在会议期间Presented time. 继续阅读

ACL 2010文章已可下载

  晚上收到ACL Anthology负责人Min-Yen Kan发给ACL Anthology Google Group的邮件,通知说目前ACL 2010的文章已经可以下载,包括full papers, short papers, student research workshop papers, demonstrations, tutorial abstracts以及所有的workshops的Paper,才想起今天(7月11号)ACL 2010会议召开。以下是具体的下载地址,有兴趣的读者可以关注一下。 继续阅读