作者归档:52nlp

Coursera公开课笔记: 斯坦福大学机器学习第四课“多变量线性回归(Linear Regression with Multiple Variables)”

斯坦福大学机器学习第四课"多变量线性回归“学习笔记,本次课程主要包括7部分: 1) Multiple features(多维特征) 2) Gradient descent for multiple variables(梯度下降在多变量线性回归中的应用) 3) Gradient descent in practice I: Feature Scaling(梯度下降实践1:特征归一化) 4) Gradient descent in practice II: Learning rate(梯度下降实践2:步长的选择) 5) Features and polynomial regression(特征及多项式回归) 6) Normal equation(正规方程-区别于迭代方法的直接解法) 7) Normal equation and non-invertibility (optional)(正规方程在矩阵不可逆情况下的解决方法) … 继续阅读

发表在 机器学习 | 标签为 , , , , , , , , , , , , | 留下评论

用了两个新插件: MathJax和多说评论

因为需要在“我爱公开课”插入数学公式的缘故,所以用上了MathJax;因为MathJax实在太酷了,所以考虑能在52nlp的wordpress博客上用上,于是Google了一把,发现国内的一个牛人已经贡献了这样的一个插件,具体信息和使用方法可见:在博客上写数学公式的插件LaTex for WordPress。这个插件早期用得是传统的将Latex转换为图片然后进行缓存的方式,目前也将MathJax集成,是我见过的Wordpress上最强到的数学公式插件,强烈推荐使用Wordpress博客的同学使用。具体在使用时,可直接在标题、文章内容和留言中使用LaTex代码输入公式,非常方便。 使用“多说”则是为了尝试一下社交化的评论系统,而这篇文章的目的也是想测试一下多说提供的一些功能,譬如自动同步到微博等等,另外读者如果使用中发现存在某些问题,也请告知,非常感谢!

发表在 wordpress | 标签为 , , , , | 4 条评论

Coursera公开课笔记: 斯坦福大学机器学习第二课“单变量线性回归(Linear regression with one variable)”

斯坦福大学机器学习第二课"单变量线性回归“学习笔记,本次课程主要包括7部分: 1) Model representation(模型表示) 2) Cost function(代价函数,成本函数) 3) Cost function intuition I(直观解释1) 4) Cost function intuition II(直观解释2) 5) Gradient descent(梯度下降) 6) Gradient descent intuition(梯度下降直观解释) 7) Gradient descent for linear regression(应用于线性回归的的梯度下降算法) 以下是第二课“单变量线性回归”的课件资料下载链接,视频可以在Coursera机器学习课程上观看或下载: PPT   PDF 另外课程答题时间推迟一周,具体可参考:  Coursera机器学习课程作业截止时间推迟一周 如转载52opencourse上的任何原创文章,请务必注明出处,原文见: Coursera公开课笔记: 斯坦福大学机器学习第二课“单变量线性回归(Linear regression with … 继续阅读

发表在 机器学习 | 标签为 , , , , , , , , , , | 留下评论

Coursera公开课笔记: 斯坦福大学机器学习第一课“引言(Introduction)”

注:这是我在“我爱公开课”上做的学习笔记,会在52opencourse和这里同步更新。随着Coursera和Udacity这样的注重交互式的网络课堂的兴起,相信传统教育模式即将遭到颠覆。欢迎大家在52opencourse这个问答平台上进行交流,希望能为大家提供一个开放、免费、高质量以及世界级的公开课中文交流平台和桥梁。 以下转自原文: Coursera公开课笔记: 斯坦福大学机器学习第一课“引言(Introduction)” Coursera上于4月23号启动了6门公开课,其中包括斯坦福大学于“机器学习”课程,由机器学习领域的大牛Andrew Ng教授授课: https://www.coursera.org/course/ml 课程刚刚开始,对机器学习感兴趣的同学尽量注册,这样即使没有时间学习,获取相关资料特别是视频比较方便。 由于工作繁忙的缘故,这批科目里我主要想系统的学习一下“机器学习”课程,所以计划在52opencourse和52nlp上同步我的机器学习课程笔记,一方面做个记录和总结,另一方面方便后来者参考。 Coursera上机器学习的课程学习过程是这样的:看Andrew Ng教授的授课视频或者看看课程相关的ppt;答系统随机出的题,一般5道题,单选、多选甚至填空,满分5分;编程作业,需用Octave(和 Matlab相似的开源编程语言)完成,提交给系统得分,在规定时间内完成,均取最高分,超过规定时间会对得分打折。 第一周(4月23日-4月29日)的课程包括三课: Introduction(引言) Linear Regression with One Variable(单变量线性回归) (Optional) Linear Algebra Review(线性代数回顾)(对于线性代数熟悉的同学可以选修) 4月30日是答题(Review Questions)截至时间。 以下是第一课“引言”的PPT课件资料,视频可以在Coursera机器学习课程上观看或下载: PPT   PDF 以下是本课程的学习笔记,除了参考机器学习课程本身的内容外,还参考网上其他资料,特别是维基百科来做注解,欢迎学习该课程的同学在“我爱公开课”上进行探讨。

发表在 机器学习 | 标签为 , , , , , , , , , | 4 条评论

推荐《用Python进行自然语言处理》中文翻译-NLTK配套书

  NLTK配套书《用Python进行自然语言处理》(Natural Language Processing with Python)已经出版好几年了,但是国内一直没有翻译的中文版,虽然读英文原版是最好的选择,但是对于多数读者,如果有中文版,一定是不错的。下午在微博上看到陈涛sean 同学提供了NLTK配套书的中译本下载,就追问了一下,之后译者和我私信联系,并交流了一下,才发现是作者无偿翻译的,并且没有出版计划的。翻译是个很苦的差事,向译者致敬,另外译者说里面有一些错误,希望能得到nlper们的指正,大家一起来修正这个珍贵的NLTK中文版吧。另外译者希望在“52nlp”上做个推荐,这事是造福nlper的好事,我已经在“资源”里更新了本书的链接,以下是书的下载地址: PYTHON自然语言处理中文翻译-NLTK Natural Language Processing with Python 中文版   翻看了一下翻译版,且不说翻译质量,单看排版就让人觉得向一本正式的翻译书籍,说明译者是非常有心的。以下是从翻译版中摘录的“译者的话”:   作为一个自然语言处理的初学者,看书看到“训练模型”,这模型那模型的,一直不知 道模型究竟是什么东西。看了这本书,从预处理数据到提取特征集,训练模型,测试修改等,一步一步实际操作了之后,才对模型一词有了直观的认识(算法的中间结果,存储在计算机中的一个个pkl 文件,测试的时候直接用,前面计算过的就省了)。以后听人谈“模型”的时候也有了底气。当然,模型还有很多其他含义。还有动词的“配价”、各种搭配、客观逻辑对根据文法生成的句子的约束如何实现?不上机动手做做,很难真正领悟。   自然语言处理理论书籍很多,讲实际操作的不多,能讲的这么系统的更少。从这个角度 讲,本书是目前世界上最好的自然语言处理实践教程。初学者若在看过理论之后能精读本书,必定会有获益。这也是翻译本书的目的之一。   本书是译者课余英文翻译练习,抛砖引玉。书中存在很多问题,尤其是第10 章命题逻 辑和一阶逻辑推理在自然语言处理中的应用。希望大家多多指教。可以在微博上找到我(w eibo.com/chentao1999)。虽然读中文翻译速度更快,但直接读原文更能了解作者的本意。   原书作者在书的最后列出了迫切需要帮助改进的条目,对翻译本书建议使用目标语言的 例子,目前本书还只能照搬英文的例子,希望有志愿者能加入本书的中文化进程中,为中文 自然语言处理做出贡献。   将本书作学习和研究之用,欢迎传播、复制、修改。山寨产品请留下译者姓名和微博。 用于商业目的,请与原书版权所有者联系,译者不承担由此产生的责任。 翻译:陈涛(weibo.com/chentao1999) 2012 年4 月7 日    最后希望大家在读这本书的过程中,记录一下需要勘误的地方,可以在“评论”中给出勘误建议,一起来修正这本书。谢谢!

发表在 中文信息处理, 自然语言处理 | 标签为 , , , , , | 15 条评论

转载: Topic modeling made just simple enough

在微博上看到 @c0d3r_Jia 同学发的一条信息: 这篇讲LDA更"人道"一些,比那些用来证明自己算法正确的文章清楚很多。不过也提到,LDA或者概率模型要用好,需要不断的筛选features、精选进行操作的token才行。// Topic modeling made just simple enough http://t.cn/zOpOc4D //喜欢这样的文章是不是就是Sheldon看不上Leonard很重要的方面,呵呵 就打开链接看了一下,然后转发了,再之后有同学反映文章被墙了,才发现这篇文章发表在wordpress.com上,转载在这里吧,有需要的同学可以看看,原文见:Topic modeling made just simple enough

发表在 自然语言处理 | 标签为 , | 留下评论

ACL 2012 Accepted Long Papers (Poster Papers)

以下ACL 2012 Poster Papers的相关信息,转载自水木NLP版: Poster Papers No. Paper Title Authors 1 A BROAD-COVERAGE NORMALIZATION SYSTEM FOR SOCIAL MEDIA LANGUAGE Fei Liu, Fuliang Weng and Xiao Jiang 2 A COST SENSITIVE PART-OF-SPEECH TAGGING: DIFFERENTIATING SERIOUS ERRORS FROM MINOR ERRORS Hyun-Je Song, … 继续阅读

发表在 自然语言处理 | 标签为 , | 留下评论

Moses的一些新变化

  看了一下Moses,发现有了一些新变化,特别是Moses整个开源项目几个月之前从Sourceforge上迁移到github上,可见github近来的人气有多旺。另外Moses的编译方式有了很大的改变,之前是Make方式编译,现在改为了bjam;之前依赖的boost库是可选的,现在boost库是必选的,不安装boost库Moses基本上是无法编译成功的。   具体到操作上,如果是在ubuntu上,可以通过"sudo apt-get install libboost-all-dev"的方式快速的安装boost库,然后check out源代码: git clone git://github.com/moses-smt/mosesdecoder.git   Check out下Moses代码之后,如果不考虑整套统计机器翻译平台的搭建,仅仅测试Moses,直接用bjam编译moses就可以了: cd ~/mosesdecoder ./bjam -j2 -j后的数字代表多核并行编译; 如果一切顺利并允许几个无关紧要的错误的话,编译完成之后会在dist下面生成一个bin和一个lib目录,前者存放可执行的二进制程序,例如moses, moses_chart,后者存放相关的lib库,例如:libmose.a Step to Step的编译方法可以参考Moses的官方文档: http://www.statmt.org/moses_steps.html 这个文档的一个问题是没有提示boost的安装,不安装boost,用bjam编译后会遇到很多boost某个库找不到的错误,并且不会生成Moses的二进制文件及Lib库。 另一个重要新闻是Moese的目前的开发由欧盟下的MosesCore项目支持,查了一下这个项目,貌似是今年才立项的,从名字上看,与Moses紧密相关,并且致力于开源统计机器翻译系统在学术界和工业界的推广: MosesCore is an EU funded Coordination Action, which aims to encourage the development and usage of … 继续阅读

发表在 机器翻译 | 标签为 , , , , , | 8 条评论

腾讯搜索广告平台部招聘工程师

腾讯具有互联网大规模的优质内容流量, 但是流量变现能力还有待提高,腾讯搜索广告 平台长尾广告中心部目前正在努力打造一个高质量的内容流量变现平台。我们目前正在并行的展开以下几个方面的工作: 0. 开发内容广告匹配的整个工程流水线,包括前台和后台 1. Text summarization & keyword extraction 2. 文本分类,包括网页分类和广告分类 3. 广告点击率预估 4. 并行机器学习工具的开发与优化, 包括 paralel logistic regression, parallel LDA 5. 用户行为分析与建模,主要目标是广告中的 behavioral targeting 欢迎有相应背景的同学加盟。 要求: 1、熟练掌握C++ 2、会 Python/Java/Perl/AWK 的加分, 熟悉Linux 开发的加分 3、熟悉 Google coding style 的加分, … 继续阅读

发表在 招聘 | 标签为 | 留下评论

NiuTrans: 一套开源的统计机器翻译平台

  晚上在CWMT(China Workshop on Machine Translation)的邮件组里看到东北大学自然语言处理实验室朱靖波老师的邮件,题为“NiuTrans: 一套开源的统计机器翻译平台”,仔细读了一下,觉得这句话很有分量:“内部测试结果显示性能和速度稳定优于Moses”,如果读者感兴趣,可以去NiuTrans的主页去申请下载,做个测试,NiuTrans的主页见:http://www.nlplab.com/NiuPlan/NiuTrans.html。前不久“哈工大语言技术平台(LTP)源代码正式对外共享”,而今东北大学也开源了NiuTrans这套统计机器翻译平台,这些对于致力于中文信息处理的NLPer来说都是好消息。以下内容全文转载自朱靖波老师的邮件: 各位老师,大家好! 我们实验室经过多个月的努力,NiuPlan的第一个NiuTrans系列系统-基于短语的统计机器翻译系统终于打包成功,Alpha版源代码正式对外免费发布,目前访问入口显示在我们实验室网站(http://www.nlplab.com)首页左上角。网页上提供了详细的使用说明和高级参数设置方法,并且还提供了部分样本数据用于学习如何使用NiuTrans. 内部测试结果显示性能和速度稳定优于Moses.系统代码的下载方式非常简单,在注册页输入姓名和电子邮件,即可得到动态下载的链接。建议提供正确的电子邮件,这样以后可以随时得到NiuPlan的最新发布和更新信息。 计划一年之内,我们实验室将不断推出NiuPlan不同系列的开源系统,包括Hierarchical phrase-based model,Syntax-based model (string-to-tree/tree-to-string/tree-to-tree)和基于统计的句法分析系统开源平台等。 NiuPlan最终将推出四个系列的开源平台系统:NiuTrans, NiuParser, NiuMining, and NiuKnowledge(暂定名字)系列系统.欢迎同行们免费下载使用,并能够将宝贵建议及时反馈给我们,我们承诺将尽力尽快完善NiuPlan各系列开源系统,在此感谢各位的使用和对现有Bug的容忍。所有系统可以从我们实验室网站上获取.祝好! Best regards, Dr. Jingbo Zhu (朱靖波) Professor(PhD Supervisor), Director Natural Language Processing Laboratory Northeastern University Shenyang, Liaoning, P.R.China Phone: 0086-24-83672481 (O)(Fax) … 继续阅读

发表在 中文信息处理, 机器翻译, 自然语言处理, 转载 | 标签为 , , , , , , | 7 条评论