
知道创宇IA-Lab 岳永鹏
目前,在NLP任务处理中,Python支持英文处理的开源包有NLTK、Scapy、StanfordCoreNLP、GATE、OPenNLP,支持中文处理的开源工具包有Jieba、ICTCLAS、THU LAC、HIT LTP,但是这些工具大部分仅对特定类型的语言提供支持。本文将介绍功能强大的支持Pipeline方式的多语言处理Python工具包:polyglot。该项目最早是由AboSamoor在2015年3月16日在GitHub上开源的项目,已经在Github收集star 1021个。
- Free software: GPLv3 license
- Documentation: http://polyglot.readthedocs.org
- GitHub: https://github.com/aboSamoor/polyglot
特征
- 语言检测 Language Detection (支持196种语言)
- 分句、分词 Tokenization (支持165种语言)
- 实体识别 Named Entity Recognition (支持40种语言)
- 词性标注 Part of Speech Tagging(支持16种语言)
- 情感分析 Sentiment(支持136种语言)
- 词嵌入 Word Embeddings(支持137种语言)
- 翻译 Transliteration(支持69种语言)
- 管道 Pipelines