月度归档:2009年12月

机器翻译新闻一则

Deep Learning Specialization on Coursera

  今天在新浪科技上看到了“东芝开发智能手机英汉日翻译软件”这则新闻,比较感兴趣!虽然“统计机器翻译”这些年如火如荼,但是在商业化的道路上似乎还是老大哥“基于规则的机器翻译”更加成熟。比较感兴趣的是东芝这款产品是如何解决统计机器翻译所占的的资源问题,即使在PC上,SMT所占的资源有时都让人咋舌,所以感觉SMT更适合Google这类在线翻译模式,不知东芝是如何在手机上解决这个问题的。 继续阅读

中文分词入门之文献

Deep Learning Specialization on Coursera

  上一节谈了中文分词的资源问题,有了这一基础条件,如果读者对中文分词感兴趣,就可以着手做一些相关研究和实验了。文献对于研究的重要性不言而喻,不仅仅针对中文分词,对于自然语言处理的初学者来说,即使是经典《自然语言处理综论》也只能让我们对一些领域有一个宏观的了解,而真正的研究还是要脚踏实地的阅读感兴趣领域的相关文献并思考和验证一些方法的有效性。 继续阅读

中文分词入门之资源

Deep Learning Specialization on Coursera

  作为中文信息处理的“桥头堡”,中文分词在国内的关注度似乎远远超过了自然语言处理的其他研究领域。在中文分词中,资源的重要性又不言而喻,最大匹配法等需要一个好的词表,而基于字标注的中文分词方法又需要人工加工好的分词语料库。所以想研究中文分词,第一步需要解决的就是资源问题,这里曾经介绍过“LDC上免费的中文信息处理资源”,其中包括一个有频率统计的词表,共计44405条,就可以作为一个不错的中文分词词表使用。而一个好的人工分词语料库,需要很大的人力物力投入,所以无论研究还是商用往往需要一定的费用购买,好在SIGHAN Bakeoff为我们提供了一个非商业使用(non-commercial)的免费获取途径,以下将介绍SIGHAN Bakeoff及相关的中文分词入门资源。 继续阅读

“我爱自然语言处理”一周岁

Deep Learning Specialization on Coursera

  “我爱自然语言处理”一周岁——依然谢谢所有关心52nlp的读者!
  这一年来,有11284位读者在这里或长或短的参观过;有24511次访问数;有89828的综合浏览量;有平均6分09秒的网站停留时间;有167篇文章;有186条读者评论;有稳定的Google;也有变化无常的百度。
  这一年来,做的最成功的系列是关于隐马尔科夫模型的介绍文章《HMM学习最佳范例》,而最开心的则莫过于订阅读者数的节节攀升了。
  欢迎大家继续关注52nlp,我也会继续写一些与自然语言处理相关的文章放在这里,也非常欢迎有兴趣的nlpers加入! 继续阅读

无约束最优化五

Deep Learning Specialization on Coursera

3.2 Quasi-Newton Method
  Quasi-Newton Method每一步计算过程中仅涉及到函数值和函数梯度值计算,这样有效避免了Newton Method中涉及到的Hessian矩阵计算问题。于Newton Method不同的是Quasi-Newton Method在每点处构建一个如下的近似模型: 继续阅读

无约束最优化四

Deep Learning Specialization on Coursera

3.Quasi-Newton Method
  在第2节中我们了解了步长的概念,以及从x_k走到x_k+1点使用line search方法计算步长的方法。不过我们在那里忽略了一个重要的概念,即“方向”。从第2节,我们了解到从每一点x_k走到下一点x_k+1时,需要给出要走的“方向”,只有“方向”确定好之后,才能在此基础上应用line search方法找到对应的“步长”,因此在解决了“步长”计算问题之后,这里我们将和大家一起了解一下每一步的“方向”如何确定。本节分为2大部分,首先我们通过newton method引入方向的概念,在此基础上引入quasi-newton method。然后引入quasi-newton method中的一种重要方法BFGS method,并在BFGS method的基础上介绍用于大规模计算的LBFGS method算法,同时以此结束本节的所有内容。 继续阅读

Moses近期动态及其他

Deep Learning Specialization on Coursera

  由于工作的关系,有一段时间没有仔细关注过统计机器翻译开源系统Moses了。前些天看到哈工大郎君师兄的文章《钱老与Moses》以及近段时间有读者询问一些和Moses相关的问题,就又回到Moses的主页和它的邮件列表中找寻一些感觉。 继续阅读

无约束最优化三

Deep Learning Specialization on Coursera

2.2 a_k步长的选择
  了解了a_k的合理性之后,就相当于获得了标尺,在此基础上我们可以选择合适的策略来求取a_k。所有的line search过程在计算每一步的a_k时,均需要提供一个初始点a_0,然后再此基础上生成一系列的{a_i},直到a_i满足2.1节所规定的条件为止,此时该a_k即被确定为a_i,或者未找到一个合适的a_k。这里我们仅介绍目前常用的策略平方插值和立方插值法。因此本节内容分为两部分,2.2.1节介绍选择a_k常用的平方插值和立方插值法,2.2.2节介绍由x_k点到x_k+1点,方向确定为p_k后,步长a_k具体计算过程。 继续阅读

HMM在自然语言处理中的应用一:词性标注6

Deep Learning Specialization on Coursera

  有一段时间没有谈HMM和词性标注了,今天我们继续这个系列的最后一个部分:介绍一个开源的HMM词性标注工具并且利用Brown语料库构造一个英文词性标注器。
  上一节借用umdhmm构造的HMM词性标注工具是二元语法(bigram)标注器,因为我们只考虑了前一个词性标记和当前词性标记,算的上是最基本的马尔科夫模型标注器。这个HMM词性标注器可以通过好几种方式进行扩展,一种方式就是考虑更多的上下文,不只考虑前面一个词性标记,而是考虑前面两个词性标记,这样的标注器称之为三元语法(trigram)标注器,是非常经典的一种词性标注方法,在《自然语言处理综论》及《统计自然语言处理基础》中被拿来介绍。 继续阅读

无约束最优化二

Deep Learning Specialization on Coursera

2.1 a_k合理性讨论
  如下将要讨论关于a_k需要满足的两个条件,当a_k满足这两个条件后,就可以认为从x_k点移动到x_k+1点的步长已经确定下来了。第一个条件为sufficient decrease condition,从直观角度来看,该条件主要要用保证x_k+1点的函数值要小于x_k点的函数值,满足该条件后,才有全局收敛 的可能性。第二个条件为curvature condition,从直观角度来看,该条件主要用于保证x_k点经过步长a_k的移动到达x_k+1后,▽f_k+1小于▽f_k。 继续阅读