标签归档:NLPJob

Mecab安装过程中的一些坑

先说一点题外话,最近发现 Linode 因为庆祝13周年活动将所有的Plan加了一倍,又来了一次加量不加价,这一下子和别的产品拉开了差距,可惜目前Linode日本节点并不参加活动,否则52nlp目前所用的这台 Linode 主机性能就可以翻倍了。不过还是搞了一台 Linode 8GB(8G内存,4核,96G SSD硬盘容量) 的VPS套餐(40$/mo),选择了美国西部的 Fremont 节点,据说国内连接速度很不错。在上面选择了64位的Ubuntu14.04 版本,但是在这个环境下安装Mecab的过程中接连踩了几个坑,所以记录一下。

这里曾写过“Mecab中文分词”系列文章,也在github上发布过一个中文分词项目 MeCab-Chinese:Chinese morphological analysis with Word Segment and POS Tagging data for MeCab ,但是这个过程中没有怎么写到Mecab安装的问题,因为之前觉得rickjin的这篇《日文分词器 Mecab 文档》应该足够参考,自己当时也在Mac OS和Ubuntu环境下安装成功并测试,印象貌似不是太复杂。这次在Ubuntu 14.04的环境安装的时候,遇到了几个小坑,记录一下,做个备忘,仅供参考。
继续阅读

用MeCab打造一套实用的中文分词系统(四):MeCab增量更新

最近在处理NLPJob的一些数据,发现之前训练的Mecab中文分词工具包还有一些问题,所以想到了为NLPJob定制一个MeCab中文分词器,最简单的方法就是整理一批相关的词条,可以通过词条追加的方法加到原有的Mecab中文分词词典中去,这个可以参考《日文分词器Mecab文档》中介绍的“词条追加”方法,既可以放到系统词典中,也可以放到用户词典中,很方便。不过这个还不是最佳方案,之前有用户在《用MeCab打造一套实用的中文分词系统》中留言:

你好, 我在win7上训练的时候mecab-cost-train的时候会崩溃,请问下我能每次只训练一小部分,然后最后一起发布嘛?

google了一下,发现MeCab的作者Taku Kudo在google plus上给了一个增量更新的方案:

https://plus.google.com/107334123935896432800/posts/3g83gkBoSYE

当然这篇文章是用日文写得,不过如果熟悉Mecab的相关脚本,很容易看懂。增量更新除了可以解决在小内存机器上分批训练模型外,也可以很容易在一个已有的基准分词模型上定制特定领域的分词器,既更新词典,也更新模型,这才是我理想中NLPJob中文分词器的定制之路。
继续阅读

NLPJob 主站上线

NLPJob之前主要以博客的模式在运作,虽然这个圈子的招聘很热闹,每次的招聘信息大家也响应的很热烈,但是毕竟博客这种人工模式比较低效,加之自己之前忙于其他的事情,这个博客慢慢的也淡了。前段时间,打开nlpjob的联系邮箱(nlpjob01 at gmail.com) 看了一下,赫然发现躺了很多邮件,包括招聘方的,也包括求职者的,由于自己的疏于搭理,冷落了这批同学,自己深感自责。所以,这段时间我在考虑把 NLPJob 的主站上线,考虑找个开源的或者自己动手写一个心中比理想的小众招聘网站来服务这个圈子。恰好清明的时候遇到了Jobberbase,试用后的立马觉得就是它了,所以这两天和同事一起着手定制和汉化,现在终于可以和大家打招呼了,欢迎大家试用,也欢迎大家多提建议。

www.nlpjob.com

这是一个完全自助式的互联网公司招聘平台,不需要任何注册信息。只需要在招聘和求职的时候留下相关的邮箱即可,我们的平台讲通过邮件服务为招聘者和求职者建立相关的联系

使用的时候招聘的同学可以直接发布职位,请注意,为了防止Spam,第一次发布职位的时候需要我们后台进行验证,如果验证通过,以后发布讲一路绿灯,畅通无阻,主要参照物将是邮箱。求职的同学可以在这个平台上直接申请相关的职位,求职信息及简历讲通过我们的平台邮件发送到招聘者的信箱之中。

另外特别需要注意的是,请猎头同学在发布职位的时候务必开头注明是猎头职位,否则讲无法通过验证或者将做删除处理。

如果您需要讲招聘信息置顶或者推荐到首页,请通过邮箱或者微博私信和我们取得联系,商讨相关事宜:

邮箱: nlpjob01@gmail.com
微博:@NLPJob

NLP Job-缘起

注:建立了一个自然语言处理&机器学习相关领域的求职博客“NLP Job", 定位“关注自然语言处理|机器学习|数据挖掘|搜索引擎|计算广告等相关领域的工作机会”,欢迎大家关注。

今年春节前,有朋友给我建议,可以在52nlp里提供一些相关领域的求职信息,既不影响52nlp的整体感觉,也可以获得一定的收益,平衡一下开支。虽然52nlp的域名和虚拟服务器的开支微乎其微,不过这个注意却让我有点心动;虽然52nlp从诞生之初就没本着赢利去,但是探索一下商业模式也无妨。不过比较纠结的是以何种方式展开?

春节后与一些朋友,同事,猎头以及公式的HR聊天,聊相关的问题,觉得可行,至少可以在自然语言处理这个领域尝试,这个领域虽然小,但是前景越来越明朗,并且和这个领域相关的机器学习,数据挖掘,搜索和广告都有大量的工作机会。52nlp虽然是个小众博客,但是读者多与这些领域相关,于是考虑尝试一把。

原本考虑在52nlp的博客中穿插一些招聘信息,但觉得不妥,于是决定单独开一个站点,通过52nlp来适度宣传。今天尝试注册域名,没想到nlpjob.com这个域名还可以注册,很开心,关于nlpjob之后是个什么样子,还没考虑好,但是决定先开启这个blog.nlpjob.com的博客,通过这个博客发布一些招聘信息,因为私下里,常常有些朋友找我发招聘信息,不如就在这里统一发算了。当然,除了这些信息,我也会发一些自己所掌握的工作机会,有猎头提供的,也有我所在公司(腾讯)的,还有其他公司提供的,如果大家对某些工作感兴趣,可以将求职目标和简历发到这个邮箱: nlpjob01 at gmail.com,我会帮你推荐相关的工作。

当然,对于任何有相关招聘需求的朋友,社招或者招聘实习生,都可以通过上面那个邮箱或者52nlp微博( http://www.weibo.com/52nlp )找我,提供相关的招聘信息,我会无偿给您发布和推广;如果是猎头朋友或者公司的HR,欢迎洽谈相关业务。