标签归档:ICTCLAS

推荐NLPIR大数据语义智能分析平台

Deep Learning Specialization on Coursera

NLPIR大数据语义智能分析平台由北京理工大学大数据搜索与挖掘实验室( Big Data Search and Mining Lab.BDSM@BIT)张华平博士主导,最近上线了新版,这里做个推荐。张华平博士最广为人知的产品是ICTCLAS中文分词平台,相信这更有助于大家了解NLPIR大数据语义智能分析平台,以下摘自“NLPIR大数据语义智能分析平台新版上线”。

NLPIR大数据语义智能分析平台针对大数据内容采编挖搜的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的最新研究成果,先后历时十八年,服务了全球四十万家机构用户,是大数据时代语义智能分析的一大利器。

NLPIR大数据语义智能挖掘平台,针对大数据内容处理的需要,融合了网络精准采集、自然语言理解、文本挖掘和网络搜索的技术,提供了客户端工具、云服务、二次开发接口。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux,Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,C,C#等各类开发语言使用。

NLPIR大数据语义智能分析平台十三大功能:

1、精准采集:对境内外互联网海量信息实时精准采集,有主题采集(按照信息需求的主题采集)与站点采集两种模式(给定网址列表的站内定点采集功能)。

2、文档抽取:对doc、excel、pdf与ppt等多种主流文档格式,进行文本信息抽取,信息抽取准确,效率达到大数据处理的要求。

3、新词发现:从文本中挖掘出新词、新概念,用户可以用于专业词典的编撰,还可以进一步编辑标注,导入分词词典中,提高分词系统的准确度,并适应新的语言变化。

4、批量分词:对原始语料进行分词,自动识别人名地名机构名等未登录词,新词标注以及词性标注。并可在分析过程中,导入用户定义的词典。

5、语言统计:针对切分标注结果,系统可以自动地进行一元词频统计、二元词语转移概率统计。针对常用的术语,会自动给出相应的英文解释。

6、文本聚类:能够从大规模数据中自动分析出热点事件,并提供事件话题的关键特征描述。同时适用于长文本和短信、微博等短文本的热点分析。

7、文本分类:根据规则或训练的方法对大量文本进行分类,可用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多方面。

8、摘要实体:对单篇或多篇文章,自动提炼出内容摘要,抽取人名、地名、机构名、时间及主题关键词;方便用户快速浏览文本内容。

9、智能过滤:对文本内容的语义智能过滤审查,内置国内最全词库,智能识别多种变种:形变、音变、繁简等多种变形,语义精准排歧。

10、情感分析:针对事先指定的分析对象,系统自动分析海量文档的情感倾向:情感极性及情感值测量,并在原文中给出正负面的得分和句子样例。

11、文档去重:快速准确地判断文件集合或数据库中是否存在相同或相似内容的记录,同时找出所有的重复记录。

12、全文检索:支持文本、数字、日期、字符串等各种数据类型,多字段的高效搜索,支持AND/OR/NOT以及NEAR邻近等查询语法,支持维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。

13、编码转换:自动识别内容的编码,并把编码统一转换为其他编码。

欢迎大家下载使用。

NLPIR大数据语义智能分析平台白皮书:

http://www.nlpir.org/NLPIR-Parser-WhitePaper.pdf (约3MB)

NLPIR大数据语义智能分析平台:

http://www.nlpir.org/NLPIR-Parser.zip (约160MB)

摘录:祖国应该做海外华人更好的娘家-新马之旅观感

Deep Learning Specialization on Coursera

  偶尔会去“张华平博士的空间”看看,多数情况下他都会写些与教学或者技术相关的博文。今晚发现他前几天写了一篇《祖国应该做海外华人更好的娘家-新马之旅观感》,读完感慨良多,本想在张老师的文章下留个言,没想到百度空间必须注册才能发表评论,就想到这里了!虽与自然语言处理无关,但觉得还是有一些读者会感兴趣的。以下仅摘录第一段和最后一段,有兴趣的读者可以去张老师的空间看全文。

无法脱俗,春节期间携夫人一起走了一趟新马,新加坡与马来西亚的热带雨林气候造就了这片热土,常年四季如夏,雨水充足,森林覆盖面超过50%,人与自然的和谐统一,人民生活得非常惬意,没有我们那么压力山大。新加坡的人均收入3000新币(大约人民币1.5万),各类开销比较小,政府几乎负担了生老病死,教育从小到大完全免费。向国家买房,代价也不过30万人民币,化妆品国外品牌的服装基本上也就国内价格的5-8折,中国的烟酒在国外只需国内价格的5-8 折,大家明白财政收入增长的原由了吧,祖国,我们拿最低的薪水,花最高的物价,悲乎?马来西亚的经济水平比我们差,但是全民教育免费,看任何病1马币,在吉隆坡购买一套房也不过3万马币(约6.4万人民币),保障了国民的教育、医疗和住房,中国立马和谐稳定。我们还有很大的差距,还有很多的工作要做。

...

有位好友在日本生活多年,因为民族感情,迟迟不愿加入日本国籍,去年归国,有关部门以超生为由,至今无法为他的一对儿女落户,成为黑户,不得以加入加拿大国籍,苦笑一句:“我爱祖国,祖国不爱我”。改用西汉名将甘延寿和陈汤的名句,“犯我大汉子民者,虽远,必诛!”,祖国不是空泛的概念,不仅仅是动员我们奉献的主体,更应该是我们的娘家,是在我们包括海外华人受到侵犯是的保护神,这些才能让我们感觉到祖国的存在。政府和外交还有很大的差距。

  而至于我的感慨,此处省略五千字!
继续阅读

推荐张华平老师的中文分词工具ICTCLAS2010

Deep Learning Specialization on Coursera

  在国内的自然语言处理领域,估计没有人不知道大名鼎鼎的中文分词工具ICTCLAS了,所以用不着我来推荐。不过今天收到ICTCLAS的作者张华平老师的来信,希望我这里收录一下他最近刚发布的ICTCLAS2010共享版本,这个版本对于研究人员非商业免费使用一年,所以在这里做个推荐,非常感谢张老师对于中文信息处理领域的贡献! 继续阅读