月度归档:2012年07月

斯坦福大学机器学习第十课“应用机器学习的建议(Advice for applying machine learning)”

Deep Learning Specialization on Coursera

斯坦福大学机器学习斯坦福大学机器学习第十课“应用机器学习的建议(Advice for applying machine learning)”学习笔记,本次课程主要包括7部分:

1) Deciding what to try next(决定下一步该如何做)

2) Evaluating a hypothesis(评估假设)

3) Model selection and training/validation/test sets(模型选择和训练/验证/测试集)

4) Diagnosing bias vs. variance(诊断偏差和方差)

5) Regularization and bias/variance(正则化和偏差/方差)

6) Learning curves(学习曲线)

7) Deciding what to try next (revisited)(再次决定下一步该做什么)

以下是每一部分的详细解读。

1) Deciding what to try next(决定下一步该如何做)

对学习算法进行调试:
假设你实现了一个正则化的线性回归算法来预测房价:

正则化线性回归模型-我爱公开课-52opencourse.com

然而,当你用它来测试一批新的房屋数据时,发现预测出来的数据是很不准确的,那么,下一步你该干啥?以下提供一些选项,但是暂时不过多解释,当我们学完这一章时,就知道选择这些选项的依据了。

- 获取更多的训练样本

- 尝试使用更少的特征的集合

- 尝试获得其他特征

- 尝试添加多项组合特征

- 尝试减小 \lambda

- 尝试增加 \lambda

机器学习(算法)诊断(Diagnostic)是一种测试方法,使你能对一种学习算法进行深入的认识,知道什么能运行,什么不能运行,并且能指导你如何最大限度的提高学习算法的性能。

诊断测试虽然需要一些时间来实现,但是这样做可以更有效的利用你的时间。

2) Evaluating a hypothesis(评估假设)

在房价预测问题中,如果Hypotheis如下:

评估假设hypothesis-我爱公开课-52opencourse.com

定义了如下的特征:

房价预测问题特征定义模版-我爱公开课-52opencourse.com

并且对训练数据做了非常好的拟合:

房价预测拟合图-我爱公开课-52opencourse.com

但是对不在训练集的新数据的预测的很差,失去通用性,那么,我们该如何评估这个假设?

首先,我们需要将数据集进行切分,一部分(例如70%)作为训练集,另一部分(例如30%)作为测试集:

假设评估中的数据集-我爱公开课-52opencourse.com

对于线性回归来说:
- 通过最小化训练集的error J(\theta)来学习参数\theta;
- 再计算测试集的error:

线性回归测试集error-我爱公开课-52opencourse.com

对于逻辑回归来说,与线性回归相似:
-首先从训练集中学习参数\theta;
-计算测试集的error:

逻辑回归测试集error公式-我爱公开课-52opencourse.com

-额外再加一个错误分类的error(或者称为0/1错误分类error);

3) Model selection and training/validation/test sets(模型选择和训练/验证/测试集)

首先让我们来回顾上面那个过拟合的例子:

机器学习模型选择过拟合例子-我爱公开课-52opencourse.com

一旦参数\theta_0, \theta_1,...,\theta_4对于某些数据集(训练集)适应(最终学习的参数),那么基于该数据及参数所计算的模型的error(训练误差J(\theta)很可能比实践泛化的error要小。

所以我们需要考虑一下模型选择(Model Selection)的问题,首先来看一个选择多项式回归模型的例子,我们有1-10次方的多项式回归模型,或者hypothesis:

模型选择多项式回归问题-我爱公开课-52opencourse.com

如何选择模型?

这里我们首先基于训练集学习参数,然后计算测试集的error, 最后选择测试集error最小的多项式回归模型,例如这里我们选择:

5次方多项式回归模型-我爱公开课-52opencourse.com

那么这个模型的泛化能力如何?测试集的error J_{test}(\theta^{(5)})基本能代表它的泛化能力,但是这是否准确?
我们用测试集来选择参数,然后有用测试集来评估假设(hypothesis), 看起来这样的评估是基于测试集进行了优化的?
的确存在一点问题,所以,这里我们再引入第三个集合:交叉验证集,我们用它来选择参数,而仅仅在测试集上评估假设。
对于原始的数据集,一种比较典型的划分方式是60%的训练集,20%的交叉验证集以及20%的测试集:
训练集-交叉验证集-测试集-我爱公开课-52opencourse.com

有了这三个数据集合,我们也可以分别定义它们各自的error:

训练集误差-验证集误差-测试集误差-我爱公开课-52opencourse.com

但是在实际使用时,我们通过训练集学习到参数, 再计算交叉验证集上的error, 再选择一个在验证集上error最小的模型,最后再在测试集上估计模型的泛化误差(error):

实践的模型选择过程-我爱公开课-52opencourse.com

4) Diagnosing bias vs. variance(诊断偏差和方差)

首先看一下偏差和方差的例子,这些例子和正则化那一章的例子相同,不过同时被贴上了偏差或方差的标签:

a) 高偏差(欠拟合):

高偏差-欠拟合-我爱公开课-52opencourse.com

b) 高方差(过拟合):
高方程-过拟合-我爱公开课-52opencourse.com

c) 合适的拟合:
合适的拟合-我爱公开课-52opencourse.com

我们来计算这三个模型的train error和cross validation error:

训练集及交叉验证集的误差-我爱公开课-52opencourse.com

我们会发现:

当多项式回归模型的次数d=1,也就是高偏差(欠拟合)时,训练集误差和验证集误差都比较大;

当d=4, 也就是高方差(过拟合)时,训练集误差会很小(拟合的非常好),但是验证集误差却很大;

当d=2,也就是拟合的刚刚好时,无论训练集误差还是验证集误差都刚刚好,介于上面两者之间。

如果用图形表示,就是下面这个样子:

训练集误差和验证集误差画图表示-我爱公开课-52opencourse.com

有了上面的解释,我们就可以来诊断偏差还是方差的问题了。假设你的学习算法表现的不尽如人意,没有达到你的期望,如何来判定它是一个偏差的问题还是方差的问题?我们可以计算他们的训练集误差和交叉验证集误差,如果它们落入了上图的“头部”区域,可以判断是偏差(欠拟合)问题,如果落入了“尾部”区域,可以判断是方差(过拟合)问题,如下图所示:

偏差问题还是方差问题-我爱公开课-52opencourse.com

最后,对于偏差还是方差的问题,可以做一个总结如下:

偏差方差问题总结-欠拟合过拟合-我爱公开课-52opencourse.com

5) Regularization and bias/variance(正则化和偏差/方差)

对于过拟合问题,正则化是一个非常有效的解决方案,所以这一小节我们将考虑正则化和偏差/方差的关系。首先来看一个正则化的线性回归的例子:正则化的线性回归模型-我爱公开课-52opencourse.com

如果正则化参数\lambda过大,一种极端的情况例如\lambda = 10000, 那么除去\theta_0,所学的其他参数都将近似为0,这就是欠拟合或高偏差的情况:

正则化参数过大欠拟合高偏差-我爱公开课-52opencourse.com

如果\lambda过小,极端的情况是\lambda = 0,等于没有对线性回归模型进行正则化,那么过拟合高方差的问题就很容易出现:

正则化参数过小过拟合高方差-我爱公开课-52opencourse.com

如果\lambda选取的比较合适,介于上述二者之间,那么我们将得到合适的拟合:

正则化参数合适拟合也合适-我爱公开课-52opencourse.com

那么,如何选择正则化参数 \lambda ?

对于数据集,我们仍将它划为3份:训练集,验证集,测试集。对于给定的正则化模型,例如上面的例子,我们按 \lambda 从小到大的顺序依次取数,然后在训练集上学习模型参数,在交叉验证集上计算验证集误差,并选择误差最小的模型, 也就是选择 \lambda,最后再在测试集上评估假设:

选择正则话参数的过程-我爱公开课-52opencourse.com

偏差/方差可以作为正则化参数 \lambda 的函数,与上一小节相似,我们也可以画出这个函数图,这样我们就能评估 \lambda 合适的选择范围了:

作为正则化参数函数的方差和偏差-我爱公开课-52opencourse.com

6) Learning curves(学习曲线)

这一小节考虑Learning curves(学习曲线)的问题,主要针对的是训练样本数目来观察训练集误差和验证集误差之间的差异:
训练集误差交叉验证集误差-我爱公开课-52opencourse.com

以下来考虑训练样本数目和模型的关系。以二次项多项式回归为例,如果仅有一个训练样本,那么模型很容易和样本点拟合,训练集误差近似为0,几乎可以忽略不计,而验证集误差可能会很大;如果有两个样本点,模型也很容易拟合样本点,训练集误差会略大一点,验证集误差可能会小一些;以此类推,当样本点比较多时,模型虽然不能拟合所有的样本点,但是泛化能力会更好一些,因此训练集误差会更大一点,而验证集误差会更小一些,如下图所示:

二次项多项式回归-我爱公开课-52opencoruse.com

而误差和训练样本数目m的关系或者学习曲线如下:

训练误差和验证集误差与训练样本大小的关系-我爱公开课-52opencourse.com

以下通过学习曲线来考虑高偏差和高方差的问题。对于高偏差欠拟合问题:

高偏差欠拟合问题举例-我爱公开课-52opencourse.com

即使增大了训练样本数目,模型拟合的依然不够,依然还是欠拟合问题。以下是高偏差欠拟合问题的学习曲线:
高偏差欠拟合问题学习曲线-我爱公开课-52opencourse.com

我们发现,如果一个学习算法是高偏差的,那么它的训练误差和验证集误差在一定的训练样本数目之后都很高,而且不会随着样本数目的增大而改变,所以对于高偏差欠拟合的问题,增加训练样本数目不是一个好的解决办法。

而对于高方差过拟合问题:

高方差过拟合问题-我爱公开课-52opencourse.com

增大样本数目后,模型的泛化能力会好一些,一些是高方差过拟合问题的学习曲线:

高方差过拟合学习曲线-我爱公开课-52opencourse.com

我们发现,如果一个学习算法是高方差的,那么它的训练误差和验证集误差在一定的训练样本数目之后虽然有差异,但是会随着样本数目的增大而减小她们之间的gap,所以对于高方差过拟合的问题,增加训练样本数目是解决方法之一。
7) Deciding what to try next (revisited)(再次决定下一步该做什么)

好了,说完了这么多与偏差/方差有关的问题,我们再次回到本章的开头的问题,
假设你实现了一个正则化的线性回归算法来预测房价,然而当你用它来测试一批新的房屋数据时,发现预测出来的数据是很不准确的,那么,下一步你该干啥?以下这些选项,分别针对的是高方差或高偏差的问题,你可以尝试用上述小节的一些方法来诊断你的学习算法,不过对于下述选项,需要你考虑一下是针对高偏差还是方差的问题,可以先思考一分钟再看答案:

- 获取更多的训练样本

- 尝试使用更少的特征的集合

- 尝试获得其他特征

- 尝试添加多项组合特征

- 尝试减小 \lambda

- 尝试增加 \lambda

答案:

- 获取更多的训练样本 - 解决高方差

- 尝试使用更少的特征的集合 - 解决高方差

- 尝试获得其他特征 - 解决高偏差

- 尝试添加多项组合特征 - 解决高偏差

- 尝试减小 \lambda - 解决高偏差

- 尝试增加 \lambda -解决高方差

最后我们再来看一下神经网络和过拟合的问题:

以下是“小”的神经网络(参数比较少,很容易欠拟合):

简单的神经网络-我爱公开课-52opencourse.com

它的计算代价较少。

以下是“大”的神经网络(参数比较多,很容易过拟合):

复杂的神经网络-我爱公开课-52opencourse.com

它的计算代价较大,对于神经网络过拟合的问题,可以通过正则化(\lambda)方法解决。

参考资料:

机器学习视频可以在Coursera机器学习课程上观看或下载: https://class.coursera.org/ml

第十课的课件资料下载链接:
PPT   PDF

Mitchell教授的经典书籍《机器学习

李航博士《统计学习方法

机器学习中的数学(2)-线性回归,偏差、方差权衡


如转载52opencourse上的任何原创文章,请注明出处,谢谢!

支持五个SMT模型的NiuTrans 完整版 ver1.0.0 测试版正式发布

Deep Learning Specialization on Coursera

以下是来自东北大学自然语言处理实验室朱靖波老师发给CWMT群的邮件:支持五个SMT模型的NiuTrans 完整版 ver1.0.0 测试版正式发布。感谢东北大学对于机器翻译开源事业的贡献!

各位同行朋友们,大家好!

经过一年的努力,今天NiuTrans ver1.0.0 测试版终于正式发布。在上个版本的基础上,新增了三个句法模型: tree-to-string, string-to-tree and tree-to-tree. 这样目前完整版已经支持了SMT目前主流的五个模型,供同行们SMT研究之用。同时也发布了新的较完整的NiuTrans英文版Manual,供大家使用NiuTrans时参考使用。

访问入口显示在东北大学自然语言处理实验室网站(http://www.nlplab.com)首页左上角。另外同时我们开通了NiuTrans新浪微博(http://weibo.com/niutrans),将实时报道NiuTrans的研发进展情况,也便于大家与我们NiuTrans研发团队的互动交流。

NiuTrans将在ACL2012进行演示,为此我们赶在ACL前夕和NiuTrans开源一周年之际发布标准版。但在研发期间我们发现句法模型的实现难度比较高,因此将目前版本称为测试版。希望大家顺便帮助测试一下,使用过程中如发现问题的话,即时告诉我们。最近我们将不断深入测试和改进NiuTrans句法模型,并将及时发布,希望大家注意关注。在此,我代表NiuTrans开发组非常感谢大家的关注,欢迎大家给我们提建议和批评指正,也可以直接e-mail to niutrans at mail.neu.edu.cn,NiuTrans研发团队会及时回答大家的问题。

祝大家身体健康,快乐开心。

Best regards,

Jingbo Zhu (朱靖波)
Natural Language Processing Laboratory
Northeastern University

Nuance公司语料收集问卷调查邀请!

Deep Learning Specialization on Coursera

 

大家好,我们是Nuance公司。现我们正在进行自然语言语料收集的工作,特邀您参与我们的问卷调查。由于电子礼券数量有限,已发放完毕。但仍欢迎大家参与并回答问卷,谢谢!

请点击如下链接开始您的问卷:

http://91.220.136.167/limesurvey/selector.php?project=Alta2012&collection=last&language=MNC

(如果无法链接,请直接复制网址并粘贴到浏览器的地址栏打开。打开过程中可能会比较慢,请大家耐心等待)

我们期待着您的反馈。

注:母语为普通话者皆可参与;由于电子礼券数量有限,我们将采取先到先得的原则发放。为了使问卷有效,请注意以下几点:

1.      问卷中的问题是假设您想让系统或别人做某些事时,如何表达出你要做这些事。而不是表达心情或所说短信,邮件的具体内容。

2.      回答中不要填入完全无关的话语。

3.      每个问题至少2个不同的回答。

4.      请不要一人多份。

5.      请不要使用重复, 接近重复或直接拷贝题目中的描述来回答。

6.      请在问卷结束时填上您的有效邮箱地址。

 

谨启

Nuance公司

斯坦福大学机器学习第九课“神经网络的学习(Neural Networks: Learning)”

Deep Learning Specialization on Coursera

斯坦福大学机器学习斯坦福大学机器学习第九课“神经网络的学习(Neural Networks: Learning)”学习笔记,本次课程主要包括8部分:

1) Cost function(代价函数)

2) Backpropagation algorithm(BP算法 or 反向传播算法)

3) Backpropagation intuition(BP算法的直观解释)

4) Implementation note: Unrolling parameters(实现时的注意点:展开参数)

5) Gradient checking(梯度下降算法的验证)

6) Random initialization(随机初始化)

7) Putting it together(组合到一起-如何训练一个神经网络)

8) Backpropagation example: Autonomous driving (optional)(BP算法的例子-无人驾驶汽车)

以下是每一部分的详细解读。

1) Cost function(代价函数)

首先回顾一下神经网络的结构:

神经网络结构-我爱公开课-52opencourse.com

其中:

训练集是:(x^{(1)}, y^{(1)}),...,(x^{(m)}, y^{(m)})
L = 神经网络的层数
s_l = 第l层的单元个数(不包括偏置单元)

对于一个分类问题来说:

如果是一个二类分类(Binary classification),那么y = 0 或1,在神经网络的输出层上只有一个输出单元;

如果是一个多类分类(Multi-class classification), 那么

神经网络分类问题-我爱公开课-52opencourse.com

在神经网络的输出层上有K个输出单元。

Cost function:

在逻辑回归中,Cost Function的定义相对简单,如下所示:

逻辑回归成本函数-我爱公开课-52opencourse.com

由于神经网络的输出层通常有多个输出,属于k维向量,因此用如下的方式定义神经网络的Cost function:
神经网络成本函数-我爱公开课-52opencourse.com

注意,对于训练集的每一个样本,都需要对输出层所有的输出单元计算cost并求和。

2) Backpropagation algorithm(BP算法 or 反向传播算法)

线性回归逻辑回归相似,求取神经网络的参数也可以采用梯度下降算法,但是和它们二者略微不同的是,神经网络相对复杂,如果计算它的梯度?

我们知道,神经网络的Cost function是:

神经网络代价函数-我爱公开课-52opencourse.com

目标是最小化Cost function:

最小化代价函数-我爱公开课-52opencourse.com

我们需要通过如下两个式子来计算梯度:

神经网络梯度下降算法-我爱公开课-52opencourse.com

在上一课“神经网络的表示”里,我们给出了前馈网络的计算方法(向量化实现),对于一个给定训练样本(x, y)的神经网络,首先通过“前向传播”的方式从输入层开始计算神经网络的每一层表示,直到输出层。例如对于如下的4层神经网络:

4层神经网络举例-我爱公开课-52opencourse.com

计算的方法如下:

神经网络前向传播-我爱公开课-52opencourse.com

有了神经网络的“表示”,如何计算梯度?这个时候,我们引入反向传播算法,简称BP算法。反向算法的核心是最小化网络输出值和目标值之间的“误差”,所以这里首先引入一个关于误差的记号:

\delta^{(l)}_j = l 层 j 节点的误差(error)

对于神经网络输出层的单元来说,例如上例中的第4层,误差的计算比较直观:

神经网络输出层误差-我爱公开课-52opencourse.com

但是对于隐藏层的误差计算,就不那么直观了:

神经网络隐藏层误差-我爱公开课-52opencourse.com

注:有志于弄清楚为什么的同学可以参考Mitchell教授的经典书籍《机器学习》的第四章“人工神经网络”,有详细的说明。

现在我们可以给出一个完成的BP算法,至于BP算法的一些解释和说明,将会在之后的小节给出:

神经网络反向传播算法-我爱公开课-52opencourse.com

我们需要计算每个节点的梯度,这里通过反向传播算法达到了。

补充:关于前馈网络和BP神经网络的关系,可以参考这篇文章中的解释:

我们最常用的神经网络就是BP网络,也叫多层前馈网络。BP是back propagation的所写,是反向传播的意思。我以前比较糊涂,因为一直不理解为啥一会叫前馈网络,一会叫BP(反向传播)网络,不是矛盾吗?其实是 这样的,前馈是从网络结构上来说的,是前一层神经元单向馈入后一层神经元,而后面的神经元没有反馈到之前的神经元;而BP网络是从网络的训练方法上来说 的,是指该网络的训练算法是反向传播算法,即神经元的链接权重的训练是从最后一层(输出层)开始,然后反向依次更新前一层的链接权重。因此二者并不矛盾, 只是我没有理解其精髓而已。

随便提一下BP网络的强大威力:
1)任何的布尔函数都可以由两层单元的网络准确表示,但是所需的隐藏层神经元的数量随网络输入数量呈指数级增长;
2)任意连续函数都可由一个两层的网络以任意精度逼近。这里的两层网络是指隐藏层使用sigmoid单元、输出层使用非阈值的线性单元;
3)任意函数都可由一个三层的网络以任意精度逼近。其两层隐藏层使用sigmoid单元、输出层使用非阈值的线性单元。

【注】参考自《机器学习

3) Backpropagation intuition(BP算法的直观解释)

相对于线性回归或逻辑回归来说,BP算法不是很简洁和清晰,这一小节将解释神经网络BP算法的一些步骤,希望对大家直观的了解BP算法有一些帮助。不过Andrew Ng教授也说了:

And even though, you know, I have used back prop for many years, sometimes it's a difficult algorithm to understand.

首先从前向传播说起,下面是一个前馈神经网络的例子:

神经网络前馈网络示例-我爱公开课-52opencourse.com

对于这个神经网络来说,它有4层,除了输出层只有1个单元外,其他每层都有2个单元(除去偏置单元)。对于一个训练样本(x^{(i)}, y^{(i)})来说,可以通过前向传播的方式计算各个相关单元,如下图所示:

前向传播计算前馈网络-我爱公开课-52opencourse.com

那么反向传播到底在做什么?首先简化神经网络的代价函数:

神经网络代价函数-我爱公开课-52opencourse.com

我们仅关注一个样本x^{(i)}, y^{(i)}?????????????????????????????(\lambda = 0), 这样Cost function可以简化为如下的形式:

神经网络简化的代价函数-我爱公开课-52opencourse.com

那么对于样本i, BP算法在神经网络上是如何生效的? 如果记

\delta^{(l)}_j = l 层 j 节点a^{(l)}_j 的cost的误差(error)

其中:

神经网络节点误差的表示-我爱公开课-52opencourse.com

BP算法主要是从输出层反向计算各个节点的误差的,故称之为反向传播算法,对于上例,计算的过程如下图所示:

反向传播算法示例-我爱公开课-52opencourse.com

注:这里有些细节没有详细描述,具体的可参考视频课程或者Mitchell教授的经典书籍《机器学习》的第四章“人工神经网络”。

4) Implementation note: Unrolling parameters(实现时的注意点:展开参数)

本节主要讲的是利用octave实现神经网络算法的一个小技巧:将多个参数矩阵展开为一个向量。具体可以参考课程视频,此处略。

5) Gradient checking(梯度下降算法的验证)

神经网络算法是一个很复杂的算法,所以有必要在实现的时候做一些检查,本节给出一个检验梯度的数值化方法。

关于梯度,有一种比较简便的数值估计方法,例如,对于一元参数来说:

梯度的估计-我爱公开课-52opencourse.com

可以用如下公式近似估计梯度:

梯度的数值估计公式-我爱公开课-52opencourse.com

其中 \epsilon 取较小的值。

同理,对于多元参数或参数向量来说,上述方法同样适用:

多元参数的梯度估计-我爱公开课-52opencourse.com

我们的主要目标是检查这个梯度的近似向量与反向传播算法得到的梯度向量是否近似相等:

反向传播算法梯度向量检查-我爱公开课-52opencourse.com

实现时的注意点:

  • 首先实现反向传播算法来计算梯度向量DVec;
  • 其次实现梯度的近似gradApprox;
  • 确保以上两步计算的值是近似相等的;
  • 在实际的神经网络学习时使用反向传播算法,并且关掉梯度检查。

特别重要的是:

  • 一定要确保在训练分类器时关闭梯度检查的代码。如果你在梯度下降的每轮迭代中都运行数值化的梯度计算,你的程序将会非常慢。

6) Random initialization(随机初始化)

关于如何学习一个神经网络的细节到目前为止基本说完了,不过还有一点需要注意,就是如何初始化参数向量or矩阵。通常情况下,我们会将参数全部初始化为0,这对于很多问题是足够的,但是对于神经网络算法,会存在一些问题,以下将会详细的介绍。

对于梯度下降和其他优化算法,对于参数\Theta向量的初始化是必不可少的。能不能将初始化的参数全部设置为0:

梯度下降参数向量设置为0

在神经网络中:

神经网络参数初始化-我爱公开课-52opencourse.com

如果将参数全部初始化为0:
神经网络参数矩阵初始化为0-我爱公开课-52opencourse.com

会导致一个问题,例如对于上面的神经网络的例子,如果将参数全部初始化为0,在每轮参数更新的时候,与输入单元相关的两个隐藏单元的结果将是相同的,既:

a^{(2)}_1 = a^{(2)}_2

这个问题又称之为对称的权重问题,因此我们需要打破这种对称,这里提供一种随机初始化参数向量的方法: 初始化 \Theta^{(l)}_{ij} 为一个落在 [-\epsilon, \epsilon]区间内的随机数, \epsilon 可以很小,但是与梯度检验中的 \epsilon 没有任何关系。

7) Putting it together(组合到一起-如何训练一个神经网络)

关于神经网络的训练,我们已经谈到了很多,现在是时候将它们组合到一起了。那么,如何训练一个神经网络?

首先需要确定一个神经网络的结构-神经元的连接模式, 包括:

  • 输入单元的个数:特征 x^{(i)} 的维数;
  • 输出单元的格式:类的个数
  • 隐藏层的设计:比较合适的是1个隐藏层,如果隐藏层数大于1,确保每个隐藏层的单元个数相同,通常情况下隐藏层单元的个数越多越好。

神经网络架构-我爱公开课-52opencourse.com

在确定好神经网络的结构后,我们按如下的步骤训练神经网络:

1. 随机初始化权重参数;

2. 实现:对于每一个 x^{(i)} 通过前向传播得到h_\Theta(x^{(i)});

3. 实现:计算代价函数J(\Theta)

4. 实现:反向传播算法用于计算偏导数 \frac{\vartheta}{\vartheta\Theta^{(l)}_{jk}}J(\Theta)

5. 使用梯度检查来比较反向传播算法计算的\frac{\vartheta}{\vartheta\Theta^{(l)}_{jk}}J(\Theta)和数值估计的J\Theta)的梯度,如果没有问题,在实际训练时关闭这部分代码;

6. 在反向传播的基础上使用梯度下降或其他优化算法来最小化J(\Theta);

8) Backpropagation example: Autonomous driving (optional)(BP算法的例子-无人驾驶汽车)

关于通过神经网络来实现一个无人驾驶汽车的例子,请大家参考课程视频,此处略。

参考资料:

机器学习视频可以在Coursera机器学习课程上观看或下载: https://class.coursera.org/ml

第九课“神经网络的学习”的课件资料下载链接:
PPT   PDF

http://en.wikipedia.org/wiki/Backpropagation

Mitchell教授的经典书籍《机器学习

http://brightli.wordpress.com/2007/06/15/%E7%BB%88%E4%BA%8E%E6%98%8E%E7%99%BD%E4%B8%BA%E4%BB%80%E4%B9%88%E5%8F%ABbp%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C/