标签归档:百度

百度深度学习中文词法分析工具LAC试用之旅

之前在调研中文分词词性标注相关工具的时候就发现了百度的深度学习中文词法分析工具:baidu/lac(https://github.com/baidu/lac),但是通过这个项目github上的文档描述以及实际动手尝试源码编译安装发现非常繁琐,缺乏通常中文分词工具的易用性,所以第一次接触完百度lac之后就放弃了:

LAC是一个联合的词法分析模型,整体性地完成中文分词、词性标注、专名识别任务。LAC既可以认为是Lexical Analysis of Chinese的首字母缩写,也可以认为是LAC Analyzes Chinese的递归缩写。

LAC基于一个堆叠的双向GRU结构,在长文本上准确复刻了百度AI开放平台上的词法分析算法。效果方面,分词、词性、专名识别的整体准确率95.5%;单独评估专名识别任务,F值87.1%(准确90.3,召回85.4%),总体略优于开放平台版本。在效果优化的基础上,LAC的模型简洁高效,内存开销不到100M,而速度则比百度AI开放平台提高了57%。

本项目依赖Paddle v0.14.0版本。如果您的Paddle安装版本低于此要求,请按照安装文档中的说明更新Paddle安装版本。如果您使用的Paddle是v1.1以后的版本,请使用该项目的分支for_paddle_v1.1。注意,LAC模块中的conf目录下的很多文件是采用git-lfs存储,使用git clone时,需要先安装git-lfs。

为了达到和机器运行环境的最佳匹配,我们建议基于源码编译安装Paddle,后文也将展开讨论一些编译安装的细节。当然,如果您发现符合机器环境的预编译版本在官网发布,也可以尝试直接选用。

最近发现百度将自己的一些自然语言处理工具整合在PaddleNLP下,文档写得相对清楚多了:

PaddleNLP是百度开源的工业级NLP工具与预训练模型集,能够适应全面丰富的NLP任务,方便开发者灵活插拔尝试多种网络结构,并且让应用最快速达到工业级效果。

PaddleNLP完全基于PaddlePaddle Fluid开发,并提供依托于百度百亿级大数据的预训练模型,能够极大地方便NLP研究者和工程师快速应用。使用者可以用PaddleNLP快速实现文本分类、文本匹配、序列标注、阅读理解、智能对话等NLP任务的组网、建模和部署,而且可以直接使用百度开源工业级预训练模型进行快速应用。用户在极大地减少研究和开发成本的同时,也可以获得更好的基于工业实践的应用效果。

继续阅读

百度搜索研发部专场招聘会——3月26日(周六)

鉴于对NLP背景同学的人才需求,百度搜索研发部计划在3月份做一场专场招聘,以下内容为代发:

百度搜索研发部将在3月26日(周六)举行专场招聘会,相关职位火热招聘中。

欢迎访问http://hr.baidu.com/extension/20110225/zhaopin.html了解招聘会详情并在线投递职位!

百度

2011年3月

“我爱自然语言处理”一周岁

  “我爱自然语言处理”一周岁——依然谢谢所有关心52nlp的读者!
  这一年来,有11284位读者在这里或长或短的参观过;有24511次访问数;有89828的综合浏览量;有平均6分09秒的网站停留时间;有167篇文章;有186条读者评论;有稳定的Google;也有变化无常的百度。
  这一年来,做的最成功的系列是关于隐马尔科夫模型的介绍文章《HMM学习最佳范例》,而最开心的则莫过于订阅读者数的节节攀升了。
  欢迎大家继续关注52nlp,我也会继续写一些与自然语言处理相关的文章放在这里,也非常欢迎有兴趣的nlpers加入! 继续阅读

自然语言处理相关工作的前景

  自然语言处理相关工作的前景怎样?虽然我不能直接回答这个问题,但是看看目前各大公司的招聘宣传就一目了然了,这里不妨关注一下百度、搜狗及维思比科技的招聘信息,首先声明这里不是为他们做广告。 继续阅读

“我爱自然语言处理”阶段性总结

  从去年12月19日建立这个博客,20日从新浪搬家,22日正式在这个博客上写作,期间除去春节放假那段时间(1月21日-2月6日),一直坚持着每天写一篇文章(绝大多数文章都是定时在每天早上八点正式发布),目前博客已累积文章62篇,对我来说这是一笔极大的精神财富。 继续阅读

Google、网易、百度在线翻译调查及分析

  机器翻译市场是一块大饼,目前很多大公司都已经进入或准备进入机器翻译市场。从已推出的在线翻译情况看,除了国外的Google、雅虎、微软外,08年下半年国内的百度、网易也推出了在线翻译产品, 继续阅读