浏览:164

  本文转自哈工大信息检索研究室刘挺老师的博客,是关于创新的,举了两个例子:基于字标注的中文分词方法和搜狗输入法,感觉写得很有启发性,读者也可以对比一下《自然语言处理领域的两种创新观念》。刘老师是国内自然语言处理领域的重量级人物,他的博文估计很多都早已被读者熟悉,这里就不多说了。 阅读全文

浏览:282

  不小心撞上了科学网上李维老师的博客,读了他个人履历和几篇文章,只能用“敬佩”二字对李维老师表示敬意。作为年后开工的第一篇博文,本无转载计划的,但是这里还是选用李维老师的随笔《机器学习和自然语言处理》,这是一位计算语言学学者和自然语言处理实践者多年来的经验之谈,没有相当的积累,纸上是谈不来的。不过,更推荐有兴趣的读者读读《朝华午拾:在美国写基金申请的酸甜苦辣》,虽然很长,我还是一气呵成读完的,除了佩服李维老师的行文能力外,也能看到成功背后的付出和汗水是多么的巨大。 阅读全文

浏览:338

  自然语言处理与医疗健康看起来似乎不搭边,不过如果读者还记着《HMM在自然语言处理中的应用一:词性标注4》中的Philip Resnik教授的话——他利用自然语言处理来提高医用编码(medical coding)的水平——大概也不会太吃惊。而今天看到和讯科技的一则新闻:《多领域IT技术研究推动改善数字健康与医疗》,讲的是“2010微软亚洲研究院数字健康与医疗研讨会”,文中提到了与数字医疗健康相关的领域,其中就包括自然语言处理: 阅读全文

浏览:404

  统计语言模型大概是自然语言处理中最简洁也最漂亮的模型了,在自然语言处理中,统计语言模型的应用包括语音识别、机器翻译、中文分词、拼写检查、语言识别、输入法等等,以至于Google科学家吴军老师的《数学之美》系列第一篇就介绍了统计语言模型。 阅读全文

浏览:428

  前不久发现了一个“自然语言处理词典(The Natural Language Processing Dictionary)”,觉得很有意思。作者Bill Wilson是澳大利亚新南威尔士大学的一名教授,因为开了一门“人工智能”课程,就为这门课程分别编制了Prolog,人工智能(Artificial Intelligence),机器学习(Machine Learning)以及自然语言处理(Natural Language Processing)的相关术语词典。这几个词典建于1998年,Bill Wilson教授似乎还在进行维护和更新,所以目前仍很有参考价值。 阅读全文

浏览:303

3.2 Quasi-Newton Method
  Quasi-Newton Method每一步计算过程中仅涉及到函数值和函数梯度值计算,这样有效避免了Newton Method中涉及到的Hessian矩阵计算问题。于Newton Method不同的是Quasi-Newton Method在每点处构建一个如下的近似模型: 阅读全文

浏览:279

3.Quasi-Newton Method
  在第2节中我们了解了步长的概念,以及从x_k走到x_k+1点使用line search方法计算步长的方法。不过我们在那里忽略了一个重要的概念,即“方向”。从第2节,我们了解到从每一点x_k走到下一点x_k+1时,需要给出要走的“方向”,只有“方向”确定好之后,才能在此基础上应用line search方法找到对应的“步长”,因此在解决了“步长”计算问题之后,这里我们将和大家一起了解一下每一步的“方向”如何确定。本节分为2大部分,首先我们通过newton method引入方向的概念,在此基础上引入quasi-newton method。然后引入quasi-newton method中的一种重要方法BFGS method,并在BFGS method的基础上介绍用于大规模计算的LBFGS method算法,同时以此结束本节的所有内容。 阅读全文

浏览:384

2.2 a_k步长的选择
  了解了a_k的合理性之后,就相当于获得了标尺,在此基础上我们可以选择合适的策略来求取a_k。所有的line search过程在计算每一步的a_k时,均需要提供一个初始点a_0,然后再此基础上生成一系列的{a_i},直到a_i满足2.1节所规定的条件为止,此时该a_k即被确定为a_i,或者未找到一个合适的a_k。这里我们仅介绍目前常用的策略平方插值和立方插值法。因此本节内容分为两部分,2.2.1节介绍选择a_k常用的平方插值和立方插值法,2.2.2节介绍由x_k点到x_k+1点,方向确定为p_k后,步长a_k具体计算过程。 阅读全文

浏览:680

  有一段时间没有谈HMM和词性标注了,今天我们继续这个系列的最后一个部分:介绍一个开源的HMM词性标注工具并且利用Brown语料库构造一个英文词性标注器。
  上一节借用umdhmm构造的HMM词性标注工具是二元语法(bigram)标注器,因为我们只考虑了前一个词性标记和当前词性标记,算的上是最基本的马尔科夫模型标注器。这个HMM词性标注器可以通过好几种方式进行扩展,一种方式就是考虑更多的上下文,不只考虑前面一个词性标记,而是考虑前面两个词性标记,这样的标注器称之为三元语法(trigram)标注器,是非常经典的一种词性标注方法,在《自然语言处理综论》及《统计自然语言处理基础》中被拿来介绍。 阅读全文

浏览:380

2.1 a_k合理性讨论
  如下将要讨论关于a_k需要满足的两个条件,当a_k满足这两个条件后,就可以认为从x_k点移动到x_k+1点的步长已经确定下来了。第一个条件为sufficient decrease condition,从直观角度来看,该条件主要要用保证x_k+1点的函数值要小于x_k点的函数值,满足该条件后,才有全局收敛 的可能性。第二个条件为curvature condition,从直观角度来看,该条件主要用于保证x_k点经过步长a_k的移动到达x_k+1后,▽f_k+1小于▽f_k。 阅读全文



订阅52nlp:

Add to Google Reader or Homepage