分类目录归档:计算语言学

CIKM Competition数据挖掘竞赛夺冠算法陈运文

Deep Learning Specialization on Coursera

背景

CIKM Cup(或者称为CIKM Competition)是ACM CIKM举办的国际数据挖掘竞赛的名称。CIKM全称是International Conference on Information and Knowledge Management,属于信息检索和数据挖掘领域的国际著名学术会议,由ACM SIGIR分会(ACM Special Interest Group on Information Retrieval)主办。

随着数据挖掘技术越来越重要,CIKM会议的影响力也水涨船高,逐渐逼近KDD、WWW、ICDE。2014年是CIKM第一次在中国大陆举办,邀请了Google大神Jeff Dean,微软EVP陆奇博士和德国Max Planck Institute的Gerhard Weikum教授担任Keynote Speaker,盛况空前。CIKM很重视工业界的运用,既有面向工业届的Tutorial/Workshop,也有CIKM Cup这样面向实战的国际数据挖掘竞赛(类似另一个著名的数据挖掘竞赛KDD Cup),比赛使用真实的工业界数据和应用课题,让全世界的数据挖掘选手们一较高下。

cikm

今年的CIKM Cup竞赛的题目是自动识别用户的查询意图(Query Intent Detection,QID),主办方提供了来自百度线上的真实的用户查询和点击的数据(总行数为6141万行),竞赛目标是根据已标注的用户行为数据,来判断其中用户查询时的真实意图,要求识别的准确率和召回率越高越好。比赛历时2个半月,共吸引了520支队伍参赛,最终我们的队伍Topdata脱颖而出,所提出的算法以F1值0.9296排名Final Leaderboard第一获得冠军!

topdata

应很多朋友的邀请,发表这篇文章详细介绍我们使用的方法,给对大数据挖掘算法感兴趣的朋友们作个参考。另外在领奖现场我们和其他参赛队伍作了愉快的交流,因此本文也吸收了其他队伍的一些优秀思路,可以看作是这次竞赛整体方法和对策的总结。文章最后还附上了一些我个人的参赛感言(陈运文)。
继续阅读

概率语言模型及其变形系列-PLSA及EM算法

Deep Learning Specialization on Coursera

本系列博文介绍常见概率语言模型及其变形模型,主要总结PLSA、LDA及LDA的变形模型及参数Inference方法。初步计划内容如下

第一篇:PLSA及EM算法

第二篇:LDA及Gibbs Samping

第三篇:LDA变形模型-Twitter LDA,TimeUserLDA,ATM,Labeled-LDA,MaxEnt-LDA等

第四篇:基于变形LDA的paper分类总结

第五篇:LDA Gibbs Sampling 的JAVA实现

第一篇 PLSA及EM算法

[Update 2012/12/21 为了解决部分朋友反映的网页图片无法显示的问题,更新PDF版本

下载地址 PLSA及EM算法-yangliuy]

前言:本文主要介绍PLSA及EM算法,首先给出LSA(隐性语义分析)的早期方法SVD,然后引入基于概率的PLSA模型,其参数学习采用EM算法。接着我们分析如何运用EM算法估计一个简单的mixture unigram 语言模型和混合高斯模型GMM的参数,最后总结EM算法的一般形式及运用关键点。对于改进PLSA,引入hyperparameter的LDA模型及其Gibbs Sampling参数估计方法放在本系列后面的文章LDA及Gibbs Samping介绍。
继续阅读

EMNLP-CoNLL 2012 List of accepted papers

Deep Learning Specialization on Coursera

EMNLP-CoNLL 2012(Conference on Empirical Methods in Natural Language Processing and Natural Language Learning)会议将于2012年7月12-14日在韩国济州岛举行,以下是会议录用文章的情况,原文请参考官方网站:http://emnlp-conll2012.unige.ch/papers.html

继续阅读

ACL HLT 2011文章已可下载

Deep Learning Specialization on Coursera

距ACL HLT 2011大会还有几天,不过目前大会的论文已经可以在ACL Anthology上下载了,以下是来自于Min-Yen Ka的群邮件。

一、ACL 2010大会论文集:
Proceedings of the 49th Annual Meeting of the Association for
Computational Linguistics: Human Language Technologies can be found
here:

http://www.aclweb.org/anthology/P/P11/

二、Workshop论文集:
The proceedings of co-located events and workshops to ACL HLT 2011 are now available online.

http://www.aclweb.org/anthology/W/W11/

Proceedings of BioNLP 2011 Workshop
http://www.aclweb.org/anthology/W/W11/#0200

Proceedings of the Fifteenth Conference on Computational Natural
Language Learning
http://www.aclweb.org/anthology/W/W11/#0300

Proceedings of the 5th Linguistic Annotation Workshop
http://www.aclweb.org/anthology/W/W11/#0400

Proceedings of the Workshop on Automatic Summarization for Different
Genres, Media, and Languages
http://www.aclweb.org/anthology/W/W11/#0500

Proceedings of the 2nd Workshop on Cognitive Modeling and
Computational Linguistics
http://www.aclweb.org/anthology/W/W11/#0600

Proceedings of the Workshop on Language in Social Media (LSM 2011)
http://www.aclweb.org/anthology/W/W11/#0700

Proceedings of the Workshop on Multiword Expressions: from Parsing and
Generation to the Real World
http://www.aclweb.org/anthology/W/W11/#0800

Proceedings of the ACL 2011 Workshop on Relational Models of Semantics
http://www.aclweb.org/anthology/W/W11/#0900

Proceedings of Fifth Workshop on Syntax, Semantics and Structure in
Statistical Translation
http://www.aclweb.org/anthology/W/W11/#1000

Proceedings of TextGraphs-6: Graph-based Methods for Natural Language
Processing
http://www.aclweb.org/anthology/W/W11/#1100

Proceedings of the 4th Workshop on Building and Using Comparable
Corpora: Comparable Corpora and the eb
http://www.aclweb.org/anthology/W/W11/#1200

Proceedings of the Workshop on Distributional Semantics and
Compositionality
http://www.aclweb.org/anthology/W/W11/#1300

Proceedings of the Sixth Workshop on Innovative Use of NLP for
Building Educational Applications
http://www.aclweb.org/anthology/W/W11/#1400

Proceedings of the 5th ACL-HLT Workshop on Language Technology for
Cultural Heritage, Social Sciences,
and Humanities
http://www.aclweb.org/anthology/W/W11/#1500

Proceedings of the Workshop on Monolingual Text-To-Text Generation
http://www.aclweb.org/anthology/W/W11/#1600

Proceedings of the 2nd Workshop on Computational Approaches to
Subjectivity and Sentiment Analysis (WASSA 2.011)
http://www.aclweb.org/anthology/W/W11/#1700

Proceedings of BioNLP Shared Task 2011 Workshop
http://www.aclweb.org/anthology/W/W11/#1800

Proceedings of the Fifteenth Conference on Computational Natural
Language Learning: Shared Task
http://www.aclweb.org/anthology/W/W11/#1900

The proceedings of the upcoming SIGDIAL 2011 Conference is now available on the ACL Anthology, here:

http://www.aclweb.org/anthology/W/W11/#2000

The SIGDIAL Anthology page also has been updated.
继续阅读

From Google Research Blog: Google at ACL 2011

Deep Learning Specialization on Coursera

  自然语言处理与计算语言学的盛会ACL 2011即将在美国俄勒冈州波特兰市举行,而Google Research Blog在昨天发表了一篇“Google at ACL 2011”,给大家及时通报了今年Google在ACL 2011上的参与情况。粗略的看了一下,Google今年在ACL上发表的Paper涉及Part-of-Speech Tagging, Named Entity Recognition, Context-Free Parsing, Translation等自然语言处理的基础领域,值得NLPer们一阅。我是在Google Reader上看到的,直接看原文的话在国内可能需要“翻墙”,为了给大家节省一点“翻墙”的时间以及活跃这里的气氛,以下就全文转载了!
继续阅读

ACL-HLT 2011: List of Accepted Papers

Deep Learning Specialization on Coursera

  第49届国际计算语言学学术会议(Annual Meeting of the Association for Computational Linguistics,ACL)和人类语言技术会议(Human Language Technology,HLT)的联合会议(ACL-HLT 2011: Joint Conference of the 49th Annual Meeting of the Association for Computational Linguistics and the Human Language Technologies Conference) 将于2011年6月19号至24号在美国俄勒冈州波特兰市召开,目前ACL-HLT 2011官方网站上已经给出了今年的long paper录用情况,以下转载自ACL-HLT 2011的官方网站上的“List of Accepted Papers”。
继续阅读

Coling 2010 文章已可下载

Deep Learning Specialization on Coursera

  自然语言处理与计算语言学的盛会COLING 2010——第23届国际计算语言学大会(International Conference on Computational Linguistics)——正在北京举行,目前会议论文已经可以在ACL Anthology上下载,以下来自于ACL Anthology负责人Min-Yen Kan的邮件。 继续阅读

ACL 2010 Best Paper Awards

Deep Learning Specialization on Coursera

  ACL 2010官方主页似乎在前几天已经确定好了本次大会的Best Paper Awards,在其Awards页面里,不仅给出了本次大会的Best long paper, Best short paper, IBM Best student paper,而且包括其在会议期间Presented time. 继续阅读

ACL 2010文章已可下载

Deep Learning Specialization on Coursera

  晚上收到ACL Anthology负责人Min-Yen Kan发给ACL Anthology Google Group的邮件,通知说目前ACL 2010的文章已经可以下载,包括full papers, short papers, student research workshop papers, demonstrations, tutorial abstracts以及所有的workshops的Paper,才想起今天(7月11号)ACL 2010会议召开。以下是具体的下载地址,有兴趣的读者可以关注一下。 继续阅读