关于 – 我爱自然语言处理

这是一个自然语言处理爱好者的群体博客，如果您愿意在这里分享NLP相关的文章，欢迎您邮件联系textminer at foxmail.com，我们为您开通相应的权限，开通后可以在这里发与NLP相关的文章，一般不做限制，最后给2个建议：

1、编辑文章时段落前的空格需要用圆角符号空格，文章发表前最好按”预览“按钮观摩一下，文章最后选择一个分类，如果没有自己要用的分类可自建，最好能添加几个标签(主题词)；
2、这里已经安装了MathJax脚本，对于latext高手来说，可以很方便的使用latex公式，如果不太熟悉MathJax，可以参考其官方文档；

特别感谢以下已经为52nlp群体博客做出直接贡献的作者：

还有一些作者未统计完毕，这里一并感谢！

最后欢迎关注我们的公众号AINLP：

AINLP：一个有趣的公众号，作者是我爱自然语言处理博客博主，NLPJob、课程图谱网站"保姆"，曾在腾讯从事文本挖掘相关工作。AINLP 关注AI、NLP相关技术，关注人工智能、文本挖掘相关算法研发职位，关注MOOC相关课程和公开课。后台对话提供中英双语聊天机器人"无名"，可以直接使用中英机器翻译，可以调戏对联机器人，也可以查询相似词，还可以做您的私人夸夸助手，欢迎来撩，欢迎关注。

============================================================================

2010年12月8日之前，她是暂时属于52nlp的个人博客：
一个自然语言处理爱好者的个人博客，愿与您分享！且行且学习！且行且珍惜！如有任何问题，请联系textminer # foxmail.com （防止垃圾邮件，请将＃换成＠）。

推荐阅读：
如何学习自然语言处理
 中文分词入门之资源

关于自然语言处理与机器翻译的一篇不错的介绍文章：
自然语言处理与机器翻译FAQ

机器翻译的一个有趣应用：
机器翻译与微软对联

一篇推荐文献阅读：
统计机器翻译中的几篇经典文献

两个文献存档网站介绍：
机器翻译档案计划
 ACL Anthology——计算语言学的数字档案

自然语言处理书籍系列：
几本自然语言处理入门书
 自然语言处理与计算语言学书籍汇总之一：国外书籍
 自然语言处理与计算语言学书籍汇总之二：国内书籍
 自然语言处理与计算语言学书籍汇总之三：国内书籍
 自然语言处理与计算语言学书籍汇总之四：国内书籍
 自然语言处理与计算语言学书籍汇总之五：机器翻译
 自然语言处理与计算语言学书籍汇总之六：国外书籍
 自然语言处理与计算语言学书籍汇总之七：其他书籍

自然语言处理公司巡礼系列：
自然语言处理公司巡礼一：Teragram
自然语言处理公司巡礼二：Powerset
自然语言处理公司巡礼三：Inxight
自然语言处理公司巡礼四：Systran
自然语言处理公司巡礼五：Autonomy
自然语言处理公司巡礼六：Metaweb
自然语言处理公司巡礼七：Language Weaver

MIT自然语言处理系列：
MIT开放式课程“自然语言处理”介绍
 MIT自然语言处理第一讲：简介和概述
 MIT自然语言处理第二讲：单词计数
 MIT自然语言处理第三讲：概率语言模型
 MIT自然语言处理第四讲：标注
 MIT自然语言处理第五讲：最大熵和对数线性模型

《关于》有27条评论

miracle说道：

2011年04月7号 11:12

请教一下博主，中文分词的词库是怎么制作的呢？我想好好系统学习一下您的分词系列文章，但是不知道词库我怎么搞定。谢谢！！！

[回复]
52nlp 回复:
10 4 月, 2011 at 17:34
制作专业的词库是由专业机构做的，对于如何搞定词库，可以看看这篇文章：https://www.52nlp.cn/%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%85%A5%E9%97%A8%E4%B9%8B%E8%B5%84%E6%BA%90

[回复]
miracle 回复:
12 4 月, 2011 at 16:21
谢谢

[回复]
ricky说道：

2011年04月8号 20:04

同问一下楼上的问题!
我还有个问题，看了博主关于beautiful data 分词的文章，一般词库很大，都要事先装载到内存里吗？有没有什么特别的处理方式。或是有没有关于存储这些词库的方法，以及在内存中处理的方法。
多谢！
我是个刚入门，如果问题太初级还请包含！

[回复]
52nlp 回复:
10 4 月, 2011 at 17:39
事实上，词库一般不会很大，因为仅仅是一些词而已，内存是装得下的。至于内存中的处理方法，主要是利用了一些比较好的数据结构，譬如trie树，或者double array trie等等。

[回复]
ricky 回复:
11 4 月, 2011 at 11:29
多谢！^_^

[回复]
samurai说道：

2011年04月20号 15:51

版主你好！！因为刚刚学习自然语言处理，虽然看了很多文摘，
但是还是有很多不懂的地方！所以想找个引路人，希望版主能
帮忙找几个在文本自动文摘方面有过研究的人，不胜感激！！

[回复]
DSQiu 回复:
21 10 月, 2012 at 14:44
我刚好正在帮别人做自动文摘的论文，不过是英文的，可以一起讨论学习……

[回复]
美蜂说道：

2011年04月22号 16:42

我是在看了data beauty 的分词文章之后，搜索Viterbi算法来到这里的，很不错，go on

[回复]
老栋说道：

2011年05月20号 15:55

你好，我是一名在读本科生，打算往自然语言处理这个方向发展，希望博主可以推荐几个好的学校参考，谢谢

[回复]
52nlp 回复:
22 5 月, 2011 at 16:41
国内大家比较推崇的大概是哈工大，清华，中科院，南大，苏大等几家，具体各个学校的研究方向你可以再仔细查查，我也不是很清楚。

[回复]
邬昌兴说道：

2012年10月17号 13:20

老师，我现在初学NLP，想问下中文和英文的断句工具，用得多的有哪几个？谢谢

[回复]
52nlp 回复:
17 10 月, 2012 at 17:10
英文的可以用nltk的断句工具：
http://nltk.googlecode.com/svn/trunk/doc/book/ch03.html#sec-segmentation

中文的不太清楚，不过由于中文的句子规则简单，歧义较少，完全可以按规则写一个断句的工具。

[回复]
张昕说道：

2013年09月9号 15:56

博主你好，我现在在做关于文本特征提取方面的项目。中文关键词提取的部分采用了张华平博士ICTCLAS2013版的关键词提取组件得到了顺利的完成，可是目前英文关键词提取找不到类似的开源软件。博主知不知道有类似的英文特征提取的开源软件推荐呢，具体步骤是：
1、输入一篇文档
2、进行分词以及词干的提取
3、关键词权重的计算和特征提取
最后输出一个文本向量空间模型，有提取出的关键词及其权重。谢谢！

[回复]
TonyOuyang说道：

2013年11月16号 11:10

博主，请教一下：我有很多sentence，每个sentence包括不同数量的word，每个word有对应的features。对每个sentence有一个label。遇到的问题是由于word数目不等，feature vector的维度就不想等了，简单的办法是所有word feature取平均之类的，但这样觉得有点丢信息，而且特征一下子少了，可能导致bias变大很多。请问这类问题通常有什么处理技巧？谢谢！

[回复]
Will说道：

2014年05月20号 08:13

博主，您的feed链接地址一直报错啊，能否有空的时候修复一下。感谢！

This page contains the following errors:
error on line 451 at column 329: Input is not proper UTF-8, indicate encoding !
Bytes: 0x10 0x76 0x65 0x20
Below is a rendering of the page up to the first error.

[回复]
52nlp 回复:
20 5 月, 2014 at 16:22
谢谢提醒，开始还以为是feedburner的缘故，把feedburner干掉了；但是问题依然存在，还是与字符编码有关，具体我还没找到是哪个片段导致这样的问题，抱歉。

[回复]
crazydreamer说道：

2014年08月7号 13:41

博主好！
我注册了之后，没有收到密码，报告错误，您的主机禁用了mail()函数，请问这个怎么解决？

[回复]
柯大侠说道：

2014年09月16号 09:16

各位语言爱好者，你们好！我最近想做些日常生活方面的语言应用，但是没找到（可能是工作不充分）合适的日常生活的语料库（比如日常生活中的交流和沟通语句，QQ或微信上常见的交流语句等），你们可否发起一个活动，将大家日常交流的语句收集起来，然后用分词算法进行分词，整理起来，已供语言爱好者学习和参考！

[回复]
Barton说道：

2016年04月13号 09:53

博主您好，不知道您有没有接触过结构化抓取的爬虫，我们想做一个基于自然语言处理和机器学习的通用爬虫。不知道您在这方面有没有涉猎

[回复]
52nlp 回复:
15 4 月, 2016 at 11:06
抱歉，这方面不太清楚

[回复]
许辰说道：

2019年11月6号 19:24

最近在研究同义词挖掘,想问下能调用你们的接口吗,或者你们的算法原理是什么呢请教大佬们

[回复]
52nlp 回复:
11 11 月, 2019 at 17:46
直接看一下这里相关的几篇关于腾讯词向量文章吧

[回复]
Peter说道：

2019年12月13号 20:57

博主您好！关注了你的公众号，能否请您分享10月20号的推文里面关于何晗大佬的那个视频（介绍hanlp的视频）一份到本人邮箱？756803877@qq.com。感激不尽

借此视频给自己加油哈哈目前正在入门路上

[回复]
52nlp 回复:
15 12 月, 2019 at 14:01
这个有版权问题，你直接去何晗微博下看或者私信问他要吧，抱歉：https://weibo.com/1824228933/Icc0k4FkM?type=comment

[回复]
戴唯说道：

2020年04月7号 19:19

52nlp 有相关的RSS吗？

[回复]
52nlp 回复:
8 4 月, 2020 at 15:25
https://www.52nlp.cn/feed

[回复]

《关于》有27条评论

发表回复

You missed

新浪张俊林：大语言模型的涌现能力——现象与解释

中科院张家俊：ChatGPT中的提示与指令学习

“国产类 ChatGPT ”所存在的差距与挑战-专家圆桌

探索大语言模型垂直化训练技术和应用-陈运文