分类目录归档:专题

中文机器翻译沙龙第三次活动报名和第二次活动小结

时间:1月16日(周日)下午14:00-17:00
报名截止日期:1月13日(周四)

地点:海淀区某茶馆,具体地点视报名人数再定

费用:AA制
专题:计算机辅助翻译(CAT)的应用现状和问题
报名请回复邮箱cmt.salon@gmail.com
 
中文机器翻译的豆瓣小组是http://www.douban.com/group/304684/
以下是第二次活动的小结:
本次聚会如期在北师大举行。共有七人参加,其中包括两位新成员。参加上次沙龙活动的部分成员,因为临近期末考试等原因,未能前来,非常遗憾。感谢北师大的郭同学热情提供了场地、投影仪、电脑等设施,使本次沙龙活动得以顺利举行。 

本次沙龙的主题是机器翻译评测。基本上以2009年的机器翻译评测大纲和评测总结报告为题材,大家一起组织了共同的学习。在BLEU基础上进行改进的BLEU-SBP是主要的评测方法。另外微软的Woodpecker在汉英评测方向进行了应用,其评测结果与BLUE-SBP有很大的差异。报告认为Woodpecker的评测方法“更加可信”。 

大家也讨论了其他的评测技术,如NIST、GTM、mWER、mPER、ICT以及基于HNC的评测技术。通过本次沙龙活动,大家对目前主流评测技术的特点和不足有了更深的认识。沙龙成员建议将沙龙活动的材料上传到网上,限于条件目前还无法实现。 

另外,大家还讨论了诸如学业与就业的相关问题。最后确定了下次沙龙活动的主题是计算机辅助翻译,时间初步确定在2011年的1月16日。

无约束最优化五

3.2 Quasi-Newton Method
  Quasi-Newton Method每一步计算过程中仅涉及到函数值和函数梯度值计算,这样有效避免了Newton Method中涉及到的Hessian矩阵计算问题。于Newton Method不同的是Quasi-Newton Method在每点处构建一个如下的近似模型: 继续阅读

无约束最优化四

3.Quasi-Newton Method
  在第2节中我们了解了步长的概念,以及从x_k走到x_k+1点使用line search方法计算步长的方法。不过我们在那里忽略了一个重要的概念,即“方向”。从第2节,我们了解到从每一点x_k走到下一点x_k+1时,需要给出要走的“方向”,只有“方向”确定好之后,才能在此基础上应用line search方法找到对应的“步长”,因此在解决了“步长”计算问题之后,这里我们将和大家一起了解一下每一步的“方向”如何确定。本节分为2大部分,首先我们通过newton method引入方向的概念,在此基础上引入quasi-newton method。然后引入quasi-newton method中的一种重要方法BFGS method,并在BFGS method的基础上介绍用于大规模计算的LBFGS method算法,同时以此结束本节的所有内容。 继续阅读

无约束最优化三

2.2 a_k步长的选择
  了解了a_k的合理性之后,就相当于获得了标尺,在此基础上我们可以选择合适的策略来求取a_k。所有的line search过程在计算每一步的a_k时,均需要提供一个初始点a_0,然后再此基础上生成一系列的{a_i},直到a_i满足2.1节所规定的条件为止,此时该a_k即被确定为a_i,或者未找到一个合适的a_k。这里我们仅介绍目前常用的策略平方插值和立方插值法。因此本节内容分为两部分,2.2.1节介绍选择a_k常用的平方插值和立方插值法,2.2.2节介绍由x_k点到x_k+1点,方向确定为p_k后,步长a_k具体计算过程。 继续阅读

无约束最优化二

2.1 a_k合理性讨论
  如下将要讨论关于a_k需要满足的两个条件,当a_k满足这两个条件后,就可以认为从x_k点移动到x_k+1点的步长已经确定下来了。第一个条件为sufficient decrease condition,从直观角度来看,该条件主要要用保证x_k+1点的函数值要小于x_k点的函数值,满足该条件后,才有全局收敛 的可能性。第二个条件为curvature condition,从直观角度来看,该条件主要用于保证x_k点经过步长a_k的移动到达x_k+1后,▽f_k+1小于▽f_k。 继续阅读

无约束最优化一

  估计有些读者看到这个题目的时候会觉得很数学,和自然语言处理没什么关系,不过如果你听说过最大熵模型、条件随机场,并且知道它们在自然语言处理中被广泛应用,甚至你明白其核心的参数训练算法中有一种叫LBFGS,那么本文就是对这类用于解无约束优化算法的Quasi-Newton Method的初步介绍。
  事实上,这个系列的作者是我的师兄jianzhu,他在中文分词、语言模型方面的研究很深入,如果大家对于srilm的源代码感兴趣,可以参考他个人博客上写的“srilm阅读文档系列”,很有帮助。我曾经向他约过稿,他说业余时间在学数学,比较忙,还以为他没有时间给52nlp写文章,没想到今天晚上他突然交给了我这篇文档,比较长,我会分几部分陆续放在博客上。这里非常感谢他对52nlp的支持,以下内容作者为jianzhu。 继续阅读