标签归档:Python3

中文命名实体识别工具(NER)哪家强?

自去年以来,在AINLP公众号上陆续给大家提供了自然语言处理相关的基础工具的在线测试接口,使用很简单,关注AINLP公众号,后台对话关键词触发测试,例如输入 “中文分词 我爱自然语言处理”,“词性标注 我爱NLP”,“情感分析 自然语言处理爱我","Stanza 52nlp" 等,具体可参考下述文章:

五款中文分词工具在线PK: Jieba, SnowNLP, PkuSeg, THULAC, HanLP
中文分词工具在线PK新增:FoolNLTK、LTP、StanfordCoreNLP
Python中文分词工具大合集:安装、使用和测试
八款中文词性标注工具使用及在线测试
百度深度学习中文词法分析工具LAC试用之旅
来,试试百度的深度学习情感分析工具
AINLP公众号新增SnowNLP情感分析模块
斯坦福大学NLP组Python深度学习自然语言处理工具Stanza试用

既然中文分词、词性标注已经有了,那下一步很自然想到的是命名实体识别(NER,Named-entity recognition)工具了,不过根据我目前了解到的情况,开源的中文命名实体工具并不多,这里主要指的是一些成熟的自然语言处理开源工具,不是github上一些学习性质的代码。目前明确有NER标记的包括斯坦福大学的NLP组的Stanza,百度的Paddle Lac,哈工大的LTP,而其他这些测试过的开源NLP基础工具,需要从词性标注结果中提取相对应的专有名词,也算是一种折中方案。

在之前这些可测的工具中,除了斯坦福大学的Stanza和CoreNLP有一套词性标记外,LTP使用的是863词性标注集,其他包括Jieba,SnowNLP,PKUSeg,Thulac,HanLP,FoolNLTK,百度Lac等基础工具的词性标注集主要是以人民日报标注语料中的北京大学词性标注集(40+tags)为蓝本:

代码 名称 帮助记忆的诠释
Ag 形语素 形容词性语素。 形容词代码为 a ,语素代码 g 前面置以 A。
a 形容词 取英语形容词 adjective 的第 1 个字母。
ad 副形词 直接作状语的形容词。 形容词代码 a 和副词代码 d 并在一起。
an 名形词 具有名词功能的形容词。 形容词代码 a 和名词代码 n 并在一起。
b 区别词 取汉字“别”的声母。
c 连词 取英语连词 conjunction 的第 1 个字母。
Dg 副语素 副词性语素。 副词代码为 d ,语素代码 g 前面置以 D。
d 副词 取 adverb 的第 2 个字母 ,因其第 1 个字母已用于形容词。
e 叹词 取英语叹词 exclamation 的第 1 个字母。
f 方位词 取汉字“方” 的声母。
g 语素 绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。 由于实际标注时 ,一定
标注其子类 ,所以从来没有用到过 g。
h 前接成分 取英语 head 的第 1 个字母。
i 成语 取英语成语 idiom 的第 1 个字母。
j 简称略语 取汉字“简”的声母。
k 后接成分
l 习用语 习用语尚未成为成语 ,有点“临时性”,取“临”的声母。
m 数词 取英语 numeral 的第 3 个字母 ,n ,u 已有他用。
Ng 名语素 名词性语素。 名词代码为 n ,语素代码 g 前面置以 N。
n 名词 取英语名词 noun 的第 1 个字母。
nr 人名 名词代码 n 和“人(ren) ”的声母并在一起。
ns 地名 名词代码 n 和处所词代码 s 并在一起。
nt 机构团体 “团”的声母为 t,名词代码 n 和 t 并在一起。
nx 非汉字串
nz 其他专名 “专”的声母的第 1 个字母为 z,名词代码 n 和 z 并在一起。
o 拟声词 取英语拟声词 onomatopoeia 的第 1 个字母。
p 介词 取英语介词 prepositional 的第 1 个字母。
q 量词 取英语 quantity 的第 1 个字母。
r 代词 取英语代词 pronoun 的第 2 个字母,因 p 已用于介词。
s 处所词 取英语 space 的第 1 个字母。
Tg 时语素 时间词性语素。时间词代码为 t,在语素的代码 g 前面置以 T。
t 时间词 取英语 time 的第 1 个字母。
u 助词 取英语助词 auxiliary 的第 2 个字母,因 a 已用于形容词。
Vg 动语素 动词性语素。动词代码为 v。在语素的代码 g 前面置以 V。
v 动词 取英语动词 verb 的第一个字母。
vd 副动词 直接作状语的动词。动词和副词的代码并在一起。
vn 名动词 指具有名词功能的动词。动词和名词的代码并在一起。
w 标点符号
x 非语素字 非语素字只是一个符号,字母 x 通常用于代表未知数、符号。
y 语气词 取汉字“语”的声母。
z 状态词 取汉字“状”的声母的前一个字母。

其中HanLp增加了更细粒度的词性标注集,具体可参考:https://www.hankcs.com/nlp/part-of-speech-tagging.html

HanLP使用的HMM词性标注模型训练自2014年人民日报切分语料,随后增加了少量98年人民日报中独有的词语。所以,HanLP词性标注集兼容《ICTPOS3.0汉语词性标记集》,并且兼容《现代汉语语料库加工规范——词语切分与词性标注》。

另外百度词法分析工具Lac使用的词性标注集中特别加了一套强相关的专名类别标签:

词性和专名类别标签集合如下表,其中词性标签24个(小写字母),专名类别标签4个(大写字母)。这里需要说明的是,人名、地名、机名和时间四个类别,在上表中存在两套标签(PER / LOC / ORG / TIME 和 nr / ns / nt / t),被标注为第二套标签的词,是模型判断为低置信度的人名、地名、机构名和时间词。开发者可以基于这两套标签,在四个类别的准确、召回之间做出自己的权衡。

哈工大LTP的命名实体标注集没有提取“时间”,具体参考如下:

https://ltp.readthedocs.io/zh_CN/latest/appendix.html

NE识别模块的标注结果采用O-S-B-I-E标注形式,其含义为

标记 含义
O 这个词不是NE
S 这个词单独构成一个NE
B 这个词为一个NE的开始
I 这个词为一个NE的中间
E 这个词位一个NE的结尾

LTP中的NE 模块识别三种NE,分别如下:

标记 含义
Nh 人名
Ni 机构名
Ns 地名

基于上述观察,我决定采用这种方案做中文命名实体工具测试接口:对于斯坦福Stanza的NER结果直接保留,对于 Baidu Lac 结果则保留强置信度的人名(PER)、地名(LOC)、机构名(ORG)、时间(TIME)提取结果,对于哈工大LTP的NER结果做个人名(Nh=>PER)、地名(Ns=>LOC)和机构名(Ni=>ORG)的映射,对于其他几个工具,去除斯坦福的老NLP工具CoreNLP,其他NLP工具则保留nr、ns、nt、t、nz这几个提取工具,并做了标记映射人名(nr=>PER),地名(ns=>LOC),机构名(nt=>ORG),时间(t=>TIME)。下面是几组测试结果,欢迎关注AINLP公众号试用,结果仅供参考,毕竟除了斯坦福Stanza、Baidu Lac以及哈工大LTP外,其他几个工具的“NER命名实体识别”功能是“强加”的,在实际使用中,可以根据需求采用:

一键收藏自然语言处理学习资源大礼包

虽然知道大多数同学都有资料收藏癖,还是给大家准备一份自然语言处理学习大礼包,其实是之前陆陆续续分享的NLP学习资源,包括自然语言处理、深度学习、机器学习、数学相关的经典课程、书籍和学习笔记,这些资料基本上都是公开渠道可以获得的,整理到一起,方便NLP爱好者收藏把玩。当然,学习的前提依然是”学自然语言处理,其实更应该学好英语“

获取方法很简单,关注AINLP公众号,后台回复关键词:ALL4NLP,一键打包收藏NLP学习资源:

这些自然语言处理相关资源列表如下,欢迎收藏:

相关的资源的过往文章大致介绍如下,不限于下述文章:

斯坦福大学自然语言处理经典入门课程-Dan Jurafsky 和 Chris Manning 教授授课

哥伦比亚大学经典自然语言处理公开课,数学之美中盛赞的柯林斯(Michael Collins)教授授课

认真推荐一份深度学习笔记:简约而不简单

Andrew Ng 老师新推的通俗人工智能课程以及其他相关资料

那些值得推荐和收藏的线性代数学习资源

Philipp Koehn大神的神经网络机器翻译学习资料:NMT Book

凸优化及无约束最优化相关资料

斯坦福大学深度学习自然语言处理课程CS224N 2019 全20个视频分享

自然语言处理经典书籍《Speech and Language Processing》第三版最新版下载(含第二版)

强化学习圣经:《强化学习导论》第二版(附PDF下载)

新书下载 | 面向机器学习的数学(Mathematics for Machine Learning)

Springer面向公众开放正版电子书籍,附65本数学、编程、数据挖掘、数据科学、数据分析、机器学习、深度学习、人工智能相关书籍链接及打包下载

最后,欢迎关注AINLP,回复"all4nlp"获取:

Springer面向公众开放正版电子书籍,附65本数学、编程、数据挖掘、数据科学、数据分析、机器学习、深度学习、人工智能相关书籍链接及打包下载

施普林格(Springer)是世界著名的科技期刊、图书出版公司,这次疫情期间面向公众免费开放了一批社科人文,自然科学等领域的正版电子书籍(据说是400多本),towardsdatascience 上有学者将其中65本机器学习和数据科学以及统计相关的免费教材下载链接整理了出来,我试了一下,无需注册,可以直接下载相关的PDF书籍,相当方便:Springer has released 65 Machine Learning and Data books for free(https://towardsdatascience.com/springer-has-released-65-machine-learning-and-data-books-for-free-961f8181f189)。

看了一下这份书单包括的书籍还是很棒的,包括数学类(多元微积分和几何、计算几何、偏微分、代数、线性代数、线性规划、概率和统计、统计学、统计学习、数学建模等)、编程类(数据结构与算法、Python编程、R语言、编程语言基础、面向对象分析和设计、数据库等)、数据挖掘、数据分析、数据科学、机器学习、人工智能、深度学习、计算机视觉,机器人等相关的电子书,甚至包括如何学习LaTex,远比想象的丰富很多。

这份清单的第一本书籍就是经典的“统计学习基础(ESL,The Elements of Statistical Learning)”, 进入书籍页面后,直接点击“Download PDF” 即可单独下载该书电子版:

Reddit上有网友提供了一个Google Drive的打包下载链接,包括其中64本书籍的PDF打包下载,可以直接下载:

https://www.reddit.com/r/opendirectories/comments/g91u12/google_drive_with_64_books_from_springer_about
https://drive.google.com/drive/folders/1rDJvZsz8EEuVVgZ43pwSvFRRKUo2TIIY

如果还是不方便,可以关注AINLP公众号,回复"sprg"获取百度网盘链接:

这份书籍清单和链接如下,我简单翻译了一下书名,供感兴趣的朋友参考:

The Elements of Statistical Learning(统计学习基础)

Trevor Hastie, Robert Tibshirani, Jerome Friedman

http://link.springer.com/openurl?genre=book&isbn=978-0-387-84858-7

Introductory Time Series with R(时间序列导论-基于R语言讲解)

Paul S.P. Cowpertwait, Andrew V. Metcalfe

http://link.springer.com/openurl?genre=book&isbn=978-0-387-88698-5

A Beginner’s Guide to R(R语言初学者指南)

Alain Zuur, Elena N. Ieno, Erik Meesters

http://link.springer.com/openurl?genre=book&isbn=978-0-387-93837-0

Introduction to Evolutionary Computing(进化计算导论)

A.E. Eiben, J.E. Smith

http://link.springer.com/openurl?genre=book&isbn=978-3-662-44874-8

Data Analysis(数据分析)

Siegmund Brandt

http://link.springer.com/openurl?genre=book&isbn=978-3-319-03762-2

Linear and Nonlinear Programming(线性和非线性规划)

David G. Luenberger, Yinyu Ye

http://link.springer.com/openurl?genre=book&isbn=978-3-319-18842-3

Introduction to Partial Differential Equations(偏微分方程简介)

David Borthwick

http://link.springer.com/openurl?genre=book&isbn=978-3-319-48936-0

Fundamentals of Robotic Mechanical Systems(机器人机械系统基础)

Jorge Angeles

http://link.springer.com/openurl?genre=book&isbn=978-3-319-01851-5

Data Structures and Algorithms with Python(Python数据结构和算法)

Kent D. Lee, Steve Hubbard

http://link.springer.com/openurl?genre=book&isbn=978-3-319-13072-9

Introduction to Partial Differential Equations(偏微分方程简介)

Peter J. Olver

http://link.springer.com/openurl?genre=book&isbn=978-3-319-02099-0

Methods of Mathematical Modelling(数学建模方法)

Thomas Witelski, Mark Bowen

http://link.springer.com/openurl?genre=book&isbn=978-3-319-23042-9

LaTeX in 24 Hours(24小时掌握LaTeX)

Dilip Datta

http://link.springer.com/openurl?genre=book&isbn=978-3-319-47831-9

Introduction to Statistics and Data Analysis(统计与数据分析导论)

Christian Heumann, Michael Schomaker, Shalabh

http://link.springer.com/openurl?genre=book&isbn=978-3-319-46162-5

Principles of Data Mining(数据挖掘原理)

Max Bramer

http://link.springer.com/openurl?genre=book&isbn=978-1-4471-7307-6

Computer Vision(计算机视觉)

Richard Szeliski

http://link.springer.com/openurl?genre=book&isbn=978-1-84882-935-0

Data Mining(数据挖掘)

Charu C. Aggarwal

http://link.springer.com/openurl?genre=book&isbn=978-3-319-14142-8

Computational Geometry(计算几何)

Mark de Berg, Otfried Cheong, Marc van Kreveld, Mark Overmars

http://link.springer.com/openurl?genre=book&isbn=978-3-540-77974-2

Robotics, Vision and Control(机器人,视觉与控制)

Peter Corke

http://link.springer.com/openurl?genre=book&isbn=978-3-319-54413-7

Statistical Analysis and Data Display(统计分析和数据展示)

Richard M. Heiberger, Burt Holland

http://link.springer.com/openurl?genre=book&isbn=978-1-4939-2122-5

Statistics and Data Analysis for Financial Engineering(金融工程统计与数据分析)

David Ruppert, David S. Matteson

http://link.springer.com/openurl?genre=book&isbn=978-1-4939-2614-5

Stochastic Processes and Calculus(随机过程与微积分)

Uwe Hassler

http://link.springer.com/openurl?genre=book&isbn=978-3-319-23428-1

Statistical Analysis of Clinical Data on a Pocket Calculator(袖珍计算器上的临床数据统计分析)

Ton J. Cleophas, Aeilko H. Zwinderman

http://link.springer.com/openurl?genre=book&isbn=978-94-007-1211-9

Clinical Data Analysis on a Pocket Calculator(袖珍计算器的临床数据分析)

Ton J. Cleophas, Aeilko H. Zwinderman

http://link.springer.com/openurl?genre=book&isbn=978-3-319-27104-0

The Data Science Design Manual(数据科学设计手册)

Steven S. Skiena

http://link.springer.com/openurl?genre=book&isbn=978-3-319-55444-0

An Introduction to Machine Learning(机器学习导论)

Miroslav Kubat

http://link.springer.com/openurl?genre=book&isbn=978-3-319-63913-0

Guide to Discrete Mathematics(离散数学指南)

Gerard O’Regan

http://link.springer.com/openurl?genre=book&isbn=978-3-319-44561-8

Introduction to Time Series and Forecasting(时间序列和预测简介)

Peter J. Brockwell, Richard A. Davis

http://link.springer.com/openurl?genre=book&isbn=978-3-319-29854-2

Multivariate Calculus and Geometry(多元微积分和几何)

Seán Dineen

http://link.springer.com/openurl?genre=book&isbn=978-1-4471-6419-7

Statistics and Analysis of Scientific Data(科学数据统计与分析)

Massimiliano Bonamente

http://link.springer.com/openurl?genre=book&isbn=978-1-4939-6572-4

Modelling Computing Systems(建模计算系统)

Faron Moller, Georg Struth

http://link.springer.com/openurl?genre=book&isbn=978-1-84800-322-4

Search Methodologies(搜索方法论)

Edmund K. Burke, Graham Kendall

http://link.springer.com/openurl?genre=book&isbn=978-1-4614-6940-7

Linear Algebra Done Right(线性代数应该这样学)

Sheldon Axler

http://link.springer.com/openurl?genre=book&isbn=978-3-319-11080-6

Linear Algebra(线性代数)

Jörg Liesen, Volker Mehrmann

http://link.springer.com/openurl?genre=book&isbn=978-3-319-24346-7

Algebra(代数)

Serge Lang

http://link.springer.com/openurl?genre=book&isbn=978-1-4613-0041-0

Understanding Analysis(理解分析学)

Stephen Abbott

http://link.springer.com/openurl?genre=book&isbn=978-1-4939-2712-8

Linear Programming(线性规划)

Robert J Vanderbei

http://link.springer.com/openurl?genre=book&isbn=978-1-4614-7630-6

Understanding Statistics Using R(通过R语言学习统计学)

Randall Schumacker, Sara Tomek

http://link.springer.com/openurl?genre=book&isbn=978-1-4614-6227-9

An Introduction to Statistical Learning(统计学习导论)

Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani

http://link.springer.com/openurl?genre=book&isbn=978-1-4614-7138-7

Statistical Learning from a Regression Perspective(回归视角的统计学习)

Richard A. Berk

http://link.springer.com/openurl?genre=book&isbn=978-3-319-44048-4

Applied Partial Differential Equations(应用偏微分方程)

J. David Logan

http://link.springer.com/openurl?genre=book&isbn=978-3-319-12493-3

Robotics(机器人技术)

Bruno Siciliano, Lorenzo Sciavicco, Luigi Villani, Giuseppe Oriolo

http://link.springer.com/openurl?genre=book&isbn=978-1-84628-642-1

Regression Modeling Strategies(回归建模策略)

Frank E. Harrell , Jr.

http://link.springer.com/openurl?genre=book&isbn=978-3-319-19425-7

A Modern Introduction to Probability and Statistics(概率统计的现代视角导论)

F.M. Dekking, C. Kraaikamp, H.P. Lopuhaä, L.E. Meester

http://link.springer.com/openurl?genre=book&isbn=978-1-84628-168-6

The Python Workbook(Python手册)

Ben Stephenson

http://link.springer.com/openurl?genre=book&isbn=978-3-319-14240-1

Machine Learning in Medicine — a Complete Overview(医学中的机器学习-完整概述)

Ton J. Cleophas, Aeilko H. Zwinderman

http://link.springer.com/openurl?genre=book&isbn=978-3-319-15195-3

Object-Oriented Analysis, Design and Implementation(面向对象的分析,设计与实现)

Brahma Dathan, Sarnath Ramnath

http://link.springer.com/openurl?genre=book&isbn=978-3-319-24280-4

Introduction to Data Science(数据科学导论)

Laura Igual, Santi Seguí

http://link.springer.com/openurl?genre=book&isbn=978-3-319-50017-1

Applied Predictive Modeling(应用预测建模)

Max Kuhn, Kjell Johnson

http://link.springer.com/openurl?genre=book&isbn=978-1-4614-6849-3

Python For ArcGIS(面向ArcGIS的Python指南)

Laura Tateosian

http://link.springer.com/openurl?genre=book&isbn=978-3-319-18398-5

Concise Guide to Databases(简明数据库指南)

Peter Lake, Paul Crowther

http://link.springer.com/openurl?genre=book&isbn=978-1-4471-5601-7

Digital Image Processing(数字图像处理)

Wilhelm Burger, Mark J. Burge

http://link.springer.com/openurl?genre=book&isbn=978-1-4471-6684-9

Bayesian Essentials with R(通过R学习贝叶斯基础)

Jean-Michel Marin, Christian P. Robert

http://link.springer.com/openurl?genre=book&isbn=978-1-4614-8687-9

Robotics, Vision and Control(机器人,视觉与控制)

Peter Corke

http://link.springer.com/openurl?genre=book&isbn=978-3-642-20144-8

Foundations of Programming Languages(编程语言基础)

Kent D. Lee

http://link.springer.com/openurl?genre=book&isbn=978-3-319-70790-7

Introduction to Artificial Intelligence(人工智能导论)

Wolfgang Ertel

http://link.springer.com/openurl?genre=book&isbn=978-3-319-58487-4

Introduction to Deep Learning(深度学习导论)

Sandro Skansi

http://link.springer.com/openurl?genre=book&isbn=978-3-319-73004-2

Linear Algebra and Analytic Geometry for Physical Sciences(物理科学的线性代数和解析几何)

Giovanni Landi, Alessandro Zampini

http://link.springer.com/openurl?genre=book&isbn=978-3-319-78361-1

Applied Linear Algebra(应用线性代数)

Peter J. Olver, Chehrzad Shakiban

http://link.springer.com/openurl?genre=book&isbn=978-3-319-91041-3

Neural Networks and Deep Learning(神经网络与深度学习)

Charu C. Aggarwal

http://link.springer.com/openurl?genre=book&isbn=978-3-319-94463-0

Data Science and Predictive Analytics(数据科学与预测分析)

Ivo D. Dinov

http://link.springer.com/openurl?genre=book&isbn=978-3-319-72347-1

Analysis for Computer Scientists(面向计算机科学家的分析学)

Michael Oberguggenberger, Alexander Ostermann

http://link.springer.com/openurl?genre=book&isbn=978-3-319-91155-7

Excel Data Analysis(Excel数据分析)

Hector Guerrero

http://link.springer.com/openurl?genre=book&isbn=978-3-030-01279-3

A Beginners Guide to Python 3 Programming(Python 3编程入门指南)

John Hunt

http://link.springer.com/openurl?genre=book&isbn=978-3-030-20290-3

Advanced Guide to Python 3 Programming(Python 3编程高级指南)

John Hunt

http://link.springer.com/openurl?genre=book&isbn=978-3-030-25943-3

感兴趣的同学可以关注下方公众号,回复"sprg"获取打包下载网盘链接:

八款中文词性标注工具使用及在线测试

结束了中文分词工具的安装、使用及在线测试,开启中文词性标注在线测试之旅,一般来说,中文分词工具大多数都附带词性标注功能的,这里测试了之前在AINLP公众号上线的8款中文分词模块或者工具,发现它们都是支持中文词性标注的,这里面唯一的区别,就是各自用的词性标注集可能有不同:

以下逐一介绍这八个工具的中文词性标注功能的使用方法,至于安装,这里简要介绍,或者可以参考之前这篇文章:Python中文分词工具大合集:安装、使用和测试,以下是在Ubuntu16.04 & Python3.x的环境下安装及测试。
继续阅读

Python中文分词工具大合集:安装、使用和测试

这篇文章事实上整合了前面两篇文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考。

首先介绍之前测试过的8款中文分词工具,这几款工具可以直接在AINLP公众号后台在线测试,严格的说,它们不完全是纯粹的中文分词工具,例如SnowNLP, Thulac, HanLP,LTP,CoreNLP都是很全面的(中文)自然语言处理工具。安装这些模块其实很简单,只要按官方文档的方法安装即可,以下做个简单介绍,在Python3.x的环境下测试,Ubuntu16.04 或 MacOS 测试成功。

再附加介绍12款其他的中文分词工具或者中文分词模块,最后的两款fnlp和ansj是比较棒的java中文分词工具,貌似还没有python接口,记录一下。这些中文分词工具我没有测试,感兴趣的同学可以动手试试。
继续阅读

中文分词工具在线PK新增:FoolNLTK、HITLTP、StanfordCoreNLP

继续中文分词在线PK之旅,上文《五款中文分词工具在线PK: Jieba, SnowNLP, PkuSeg, THULAC, HanLP》我们选择了5个中文分词开源工具,这次再追加3个,分别是FoolNLTK、哈工大LTP(pyltp, ltp的python封装)、斯坦福大学的CoreNLP(stanfordcorenlp is a Python wrapper for Stanford CoreNLP),现在可以在AINLP公众号测试一下:中文分词 我爱自然语言处理

以下是在Python3.x & Ubuntu16.04 的环境下测试及安装这些中文分词器:
继续阅读

五款中文分词工具在线PK: Jieba, SnowNLP, PkuSeg, THULAC, HanLP

最近玩公众号会话停不下来:玩转腾讯词向量:Game of Words(词语的加减游戏),准备把NLP相关的模块搬到线上,准确的说,搬到AINLP公众号后台对话,所以,趁着劳动节假期,给AINLP公众号后台聊天机器人添加了一项新技能:中文分词线上PK,例如在AINLP公众号后台对话输入:中文分词 我爱自然语言处理,就可以得到五款分词工具的分词结果:

现在的开源中文分词工具或者模块已经很丰富了,并且很多都有一些在封闭测试集上的效果对比数据,不过这仅仅只能展现这些分词工具在这个封闭测试集上的效果,并不能全面说明问题,个人觉得,选择一个适合自己业务的分词器可能更重要,有的时候,还需要加一些私人定制的词库。

这次首先选了5款中文分词工具,严格的来说,它们不完全是纯粹的中文分词工具,例如SnowNLP, Thulac, HanLP都是很全面的中文自然语言处理工具,这次,先试水它们的中文分词模块。安装这些模块其实很简单,只要按官方文档的方法安装即可,以下做个简单介绍,在Python3.x的环境下测试,Ubuntu16.04 或 MacOS 测试成功。
继续阅读