PRML读书会第十四章 Combining Models

PRML读书会第十四章 Combining Models

主讲人 网神

(新浪微博: @豆角茄子麻酱凉面

网神(66707180) 18:57:18

大家好,今天我们讲一下第14章combining models,这一章是联合模型,通过将多个模型以某种形式结合起来,可以获得比单个模型更好的预测效果。包括这几部分:
committees, 训练多个不同的模型,取其平均值作为最终预测值。

boosting: 是committees的特殊形式,顺序训练L个模型,每个模型的训练依赖前一个模型的训练结果。
决策树:不同模型负责输入变量的不同区间的预测,每个样本选择一个模型来预测,选择过程就像在树结构中从顶到叶子的遍历。
conditional mixture model条件混合模型:引入概率机制来选择不同模型对某个样本做预测,相比决策树的硬性选择,要有很多优势。

本章主要介绍了这几种混合模型。讲之前,先明确一下混合模型与Bayesian model averaging的区别,贝叶斯模型平均是这样的:假设有H个不同模型h,每个模型的先验概率是p(h),一个数据集的分布是:
整个数据集X是由一个模型生成的,关于h的概率仅仅表示是由哪个模型来生成的 这件事的不确定性。而本章要讲的混合模型是数据集中,不同的数据点可能由不同模型生成。看后面讲到的内容就明白了。
继续阅读

发表在 PRML, 机器学习 | 标签为 , , , , , , , , , , , , , , , , , , , , , | 留下评论

PRML读书会第十三章 Sequential Data

PRML读书会第十三章 Sequential Data

主讲人 张巍

(新浪微博: @张巍_ISCAS

软件所-张巍<zh3f@qq.com> 19:01:27
我们开始吧,十三章是关于序列数据,现实中很多数据是有前后关系的,例如语音或者DNA序列,例子就不多举了,对于这类数据我们很自然会想到用马尔科夫链来建模:

例如直接假设观测数据之间服从一阶马尔科夫链,这个假设显然太简单了,因为很多数据时明显有高阶相关性的,一个解决方法是用高阶马尔科夫链建模:

但这样并不能完全解决问题 :1、高阶马尔科夫模型参数太多;2、数据间的相关性仍然受阶数限制。一个好的解决方法,是引入一层隐变量,建立如下的模型:

继续阅读

发表在 PRML, 机器学习 | 标签为 , , , , , , , , , , , , , , , | 留下评论

PRML读书会第十二章 Continuous Latent Variables

PRML读书会第十二章 Continuous Latent Variables

主讲人 戴玮

(新浪微博: @戴玮_CASIA

Wilbur_中博(1954123) 20:00:49

我今天讲PRML的第十二章,连续隐变量。既然有连续隐变量,一定也有离散隐变量,那么离散隐变量是什么?我们可能还记得之前尼采兄讲过的9.2节的高斯混合模型。它有一个K维二值隐变量z,不仅只能取0-1两个值,而且K维中只能有1维为1、其他维必须为0,表示我们观察到的x属于K类中的哪一类。显然,这里的隐变量z就是个离散隐变量。不过我们容易想到,隐变量未必像kmeans或GMM这种聚类算法那样,非此即彼、非白即黑,我们当然也可能在各个聚类或组成成分之间连续变化。而且很多情况下,连续变化都是更合理、更容易推广的。所以,我们这一章引入了连续隐变量。
书中举了一个例子:从某张特定的手写数字图像,通过平移和旋转变换生成多张图像。虽然我们观察到的是整个图像像素的一个高维数据空间中的样本,但实际上只是由平移和旋转这三个隐变量产生的,这里的平移和旋转就是连续隐变量。还举了个石油流量的例子,是从两个隐变量经过测量得到12个观察变量,那里的两个隐变量也是连续的。 一般来说,样本不会精确处在由隐变量表示的低维流形上,而是可能稍有偏差,这种偏差可视作噪声。噪声的来源各种各样,不是我们能把握的,一般只能统一把它们看成单一的噪声项来处理。
最简单的情况下,我们可以把隐变量和观察变量都假设为高斯分布,并且利用2.3.1讲过的条件分布与边缘分布之间的线性高斯关系,来建立观察变量与隐变量之间的线性模型。这样,我们就可以建立主成分分析(PCA)以及与之相关的因子分析(FA)的概率模型。不过在此之前,我们还是看看传统视角是如何处理主成分分析的:
继续阅读

发表在 PRML, 机器学习 | 标签为 , , , , , , , , , , , , , | 留下评论

PRML读书会第十一章 Sampling Methods

PRML读书会第十一章 Sampling Methods

主讲人 网络上的尼采

(新浪微博: @Nietzsche_复杂网络机器学习

网络上的尼采(813394698) 9:05:00
今天的主要内容:Markov Chain Monte Carlo,Metropolis-Hastings,Gibbs Sampling,Slice Sampling,Hybrid Monte Carlo。

上一章讲到的平均场是统计物理学中常用的一种思想,将无法处理的复杂多体问题分解成可以处理的单体问题来近似,变分推断便是在平均场的假设约束下求泛函L(Q)极值的最优化问题,好处在于求解过程中可以推出精致的解析解。变分是从最优化的角度通过坐标上升法收敛到局部最优,这一章我们将通过计算从动力学角度见证Markov Chain Monte Carlo收敛到平稳分布。

先说sampling的原因,因为统计学中经常会遇到对复杂的分布做加和与积分,这往往是intractable的。MCMC方法出现后贝叶斯方法才得以发展,因为在那之前对不可观测变量(包括隐变量和参数)后验分布积分非常困难,对于这个问题上一章变分用的解决办法是通过最优化方法寻找一个和不可观测变量后验分布p(Z|X)近似的分布,这一章我们看下sampling的解决方法,举个简单的例子:比如我们遇到这种形式,z是个连续随机变量,p(z)是它的分布,我们求f(z)的期望。如果我们从p(z)中sampling一个数据集z(l),然后再求个平均来近似f(z)的期望so,问题就解决了,关键是如何从p(z)中做无偏的sampling。
为了说明sampling的作用,我们先举个EM的例子,最大似然计算中求分布的积分问题,我们在第九章提到了,完整数据的log似然函数是对隐变量Z的积分:
继续阅读

发表在 PRML, 机器学习 | 标签为 , , , , , , , , , , , , , , , , , , , , | 留下评论

PRML读书会第十章 Approximate Inference

PRML读书会第十章 Approximate Inference

主讲人 戴玮

(新浪微博: @戴玮_CASIA

Wilbur_中博(1954123) 20:02:04

我们在前面看到,概率推断的核心任务就是计算某分布下的某个函数的期望、或者计算边缘概率分布、条件概率分布等等。 比如前面在第九章尼采兄讲EM时,我们就计算了对数似然函数在隐变量后验分布下的期望。这些任务往往需要积分或求和操作。 但在很多情况下,计算这些东西往往不那么容易。因为首先,我们积分中涉及的分布可能有很复杂的形式,这样就无法直接得到解析解,而我们当然希望分布是类似指数族分布这样具有共轭分布、容易得到解析解的分布形式;其次,我们要积分的变量空间可能有很高的维度,这样就把我们做数值积分的路都给堵死了。因为这两个原因,我们进行精确计算往往是不可行的。
为了解决这一问题,我们需要引入一些近似计算方法。

近似计算有随机和确定两条路子。随机方法也就是MCMC之类的采样法,我们会在讲第十一章的时候专门讲到,而确定近似法就是我们这一章讲的变分。变分法的优点主要是:有解析解、计算开销较小、易于在大规模问题中应用。但它的缺点是推导出想要的形式比较困难。也就是说,人琢磨的部分比较复杂,而机器算的部分比较简单。这和第十一章的采样法的优缺点恰好有互补性。所以我们可以在不同的场合应用变分法或采样法。这里我的一个问题是:是否可以结合二者的优点,使得人也不用考虑太多、机器算起来也比较简单?
变分法相当于把微积分从变量推广到函数上。我们都知道,微积分是用来分析变量变化、也就是函数性质的,这里函数定义为f: x -> f(x),而导数则是df/dx;与之相对,变分用到了泛函的概念:F: f -> F(f),也就是把函数映射为某个值,而相应地,也有导数dF/df,衡量函数是如何变化的。比如我们熟悉的信息论中的熵,就是把概率分布这个函数映射到熵这个值上。和微积分一样,我们也可以通过导数为0的条件求解无约束极值问题,以及引入拉格朗日乘子来求解有约束极值问题。比如说,我们可以通过概率分布积分为1的约束,求解最大熵的变分问题。PRML的附录D和E有比较详细的解释,我们后面也还会看到,这里就不多说了。
变分法这名字听起来比较可怕,但它的核心思想,就是从某个函数空间中找到满足某些条件或约束的函数。我们在统计推断当中用到的变分法,实际上就是用形式简单的分布,去近似形式复杂、不易计算的分布,这样再做积分运算就会容易很多。 比如,我们可以在所有高斯分布当中,选一个和目标分布最相似的分布,这样后面做进一步计算时就容易获得解析解。此外,我们还可以假设多元分布的各变量之间独立,这样积分的时候就可以把它们变成多个一元积分,从而解决高维问题。这也是最简单的两种近似。
继续阅读

发表在 PRML, 机器学习 | 标签为 , , , , , , , , , , , , , , , , | 留下评论

PRML读书会第九章 Mixture Models and EM

PRML读书会第九章 Mixture Models and EM

主讲人 网络上的尼采

(新浪微博: @Nietzsche_复杂网络机器学习

网络上的尼采(813394698) 9:10:56
今天的主要内容有k-means、混合高斯模型、 EM算法。
对于k-means大家都不会陌生,非常经典的一个聚类算法,已经50多年了,关于clustering推荐一篇不错的survey:

Data clustering: 50 years beyond K-means。k-means表达的思想非常经典,就是对于复杂问题分解成两步不停的迭代进行逼近,并且每一步相对于前一步都是递减的。
k-means有个目标函数 :

假设有k个簇,是第k个簇的均值;每个数据点都有一个向量表示属于哪个簇,rnk是向量的元素,如果点xn属于第k个簇,则rnk是1,向量的其他元素是0。
上面这个目标函数就是各个簇的点与簇均值的距离的总和,k-means要做的就是使这个目标函数最小。 这是个NP-hard问题,k-means只能收敛到局部最优。
继续阅读

发表在 PRML, 机器学习 | 标签为 , , , , , , , , , , , , , , | 留下评论

PRML读书会第八章 Graphical Models

PRML读书会第八章 Graphical Models

主讲人 网神

(新浪微博: @豆角茄子麻酱凉面

网神(66707180) 18:52:10

今天的内容主要是:

1.贝叶斯网络和马尔科夫随机场的概念,联合概率分解,条件独立表示;2.图的概率推断inference。

图模型是用图的方式表示概率推理 ,将概率模型可视化,方便展示变量之间的关系,概率图分为有向图和无向图。有向图主要是贝叶斯网络,无向图主要是马尔科夫随机场。对两类图,prml都讲了如何将联合概率分解为条件概率,以及如何表示和判断条件依赖。
先说贝叶斯网络,贝叶斯网络是有向图,用节点表示随机变量,用箭头表示变量之间的依赖关系。一个例子:
继续阅读

发表在 PRML, 机器学习 | 标签为 , , , , , , , , , , , , , , , , , , , | 留下评论

PRML读书会第七章 Sparse Kernel Machines

PRML读书会第七章 Sparse Kernel Machines

主讲人 网神

(新浪微博: @豆角茄子麻酱凉面

网神(66707180) 18:59:22
大家好,今天一起交流下PRML第7章。第六章核函数里提到,有一类机器学习算法,不是对参数做点估计或求其分布,而是保留训练样本,在预测阶段,计算待预测样本跟训练样本的相似性来做预测,例如KNN方法。
将线性模型转换成对偶形式,就可以利用核函数来计算相似性,同时避免了直接做高维度的向量内积运算。本章是稀疏向量机,同样基于核函数,用训练样本直接对新样本做预测,而且只使用了少量训练样本,所以具有稀疏性,叫sparse kernel machine。
本章包括SVM和RVM(revelance vector machine)两部分,首先讲SVM,支持向量机。首先看SVM用于二元分类,并先假设两类数据是线性可分的。
二元分类线性模型可以用这个式子表示:prml7-0。其中prml7-1是基函数,这些都跟第三章和第四章是一样的。
两类数据线性可分,当prml7-2时,分类结果是prml7-3; prml7-4时,分类结果prml7-5;也就是对所有训练样本总是有prml7-6.要做的就是确定决策边界y(x)=0
为了确定决策边界prml7-7,SVM引入margin的概念。margin定义为决策边界y(x)到最近的样本的垂直距离。如下图所示: 继续阅读

发表在 PRML, 机器学习 | 标签为 , , , , , , , , , , , , , , , , , , , , , | 留下评论

PRML读书会第六章 Kernel Methods

PRML读书会第六章 Kernel Methods

主讲人 网络上的尼采

(新浪微博:@Nietzsche_复杂网络机器学习

网络上的尼采(813394698) 9:16:05

今天的主要内容:Kernel的基本知识,高斯过程。边思考边打字,有点慢,各位稍安勿躁。
机器学习里面对待训练数据有的是训练完得到参数后就可以抛弃了,比如神经网络;有的是还需要原来的训练数据比如KNN,SVM也需要保留一部分数据–支持向量。
很多线性参数模型都可以通过dual representation的形式表达为核函数的形式。所谓线性参数模型是通过非线性的基函数的线性组合来表达非线性的东西,模型还是线性的。比如线性回归模型是y=prml6-0prml6-1是一组非线性基函数,我们可以通过线性的模型来表达非线性的结构。

核函数的形式:prml6-3,也就是映射后高维特征空间的内积可以通过原来低维的特征得到。因此kernel methods用途广泛。

核函数有很多种,有平移不变的stationary kernels  prml6-4还有仅依赖欧氏距离的径向基核:prml6-5 继续阅读

发表在 PRML, 机器学习 | 标签为 , , , , , , , , , , , , , , , , , , , , | 留下评论

PRML读书会第五章 Neural Networks

PRML读书会第五章 Neural Networks

主讲人 网神

(新浪微博:@豆角茄子麻酱凉面

网神(66707180) 18:55:06

那我们开始了啊,前面第3,4章讲了回归和分类问题,他们应用的主要限制是维度灾难问题。今天的第5章神经网络的内容:
1. 神经网络的定义
2. 训练方法:error函数,梯度下降,后向传导
3. 正则化:几种主要方法,重点讲卷积网络

书上提到的这些内容今天先不讲了,以后有时间再讲:BP在Jacobian和Hessian矩阵中求导的应用;
混合密度网络;贝叶斯解释神经网络。

首先是神经网络的定义,先看一个最简单的神经网络,只有一个神经元:

prml5-0

这个神经元是一个以x1,x2,x3和截距1为输入的运算单元,其输出是:

prml5-1

其中函数f成为”激活函数” , activation function.激活函数根据实际应用确定,经常选择sigmoid函数.如果是sigmoid函数,这个神经元的输入-输出的映射就是一个logistic回归问题。

继续阅读

发表在 PRML, 机器学习 | 标签为 , , , , , , , , , , , , , , , , , , | 留下评论