月度归档:2010年05月

条件随机场文献阅读指南

Deep Learning Specialization on Coursera

  与最大熵模型相似,条件随机场(Conditional random fields,CRFs)是一种机器学习模型,在自然语言处理的许多领域(如词性标注、中文分词、命名实体识别等)都有比较好的应用效果。条件随机场最早由John D. Lafferty提出,其也是Brown90的作者之一,和贾里尼克相似,在离开IBM后他去了卡耐基梅隆大学继续搞学术研究,2001年以第一作者的身份发表了CRF的经典论文 “Conditional random fields: Probabilistic models for segmenting and labeling sequence data”。 继续阅读

微软:Web N-gram Services

Deep Learning Specialization on Coursera

  微软研究院的官方网站上近期发布了一篇文章:“Microsoft Web N-gram Services",大意是邀请整个社区使用其提供的"Web N-gram services",这个服务旨在通过基于云的存储平台,推动网络搜索,自然语言处理,语音技术等相关领域,在研究现实世界的大规模网络数据时,利用该服务所提供动态数据对项目中的常规数据进行补充更新,进而有所发现和创新。 继续阅读

推荐张华平老师的中文分词工具ICTCLAS2010

Deep Learning Specialization on Coursera

  在国内的自然语言处理领域,估计没有人不知道大名鼎鼎的中文分词工具ICTCLAS了,所以用不着我来推荐。不过今天收到ICTCLAS的作者张华平老师的来信,希望我这里收录一下他最近刚发布的ICTCLAS2010共享版本,这个版本对于研究人员非商业免费使用一年,所以在这里做个推荐,非常感谢张老师对于中文信息处理领域的贡献! 继续阅读