Coursera公开课笔记: 斯坦福大学机器学习第六课“逻辑回归(Logistic Regression)”

1) Classification(分类)

2) Hypothesis Representation

3) Decision boundary(决策边界)

4) Cost function(代价函数，成本函数)

5) Simplified cost function and gradient descent(简化版代价函数及梯度下降算法)

7) Multi-class classification: One-vs-all(多类分类问题)

1) Classification(分类)

1. 邮件：垃圾邮件/非垃圾邮件？
2. 在线交易：是否欺诈（是/否）？
3. 肿瘤：恶性/良性？

$y \in \{0, 1, 2, 3, …, n\}$

• 如果$h_\theta(x) \geq 0.5$，则预测y=1,既y属于正例；
• 如果$h_\theta(x) < 0.5$，则预测y=0,既y属于负例；

$0 \leq h_\theta(x) \leq 1$

2) Hypothesis Representation

$0 \leq h_\theta(x) \leq 1$

$h_\theta(x) = g(\theta^T x)$

$g(z) = \frac{1}{1+e^{-z}}$

Sigmoid 函数在有个很漂亮的“S”形，如下图所示（引自维基百科）：

$h_\theta(x) = \frac{1}{1+e^{-\theta^Tx}}$

Hypothesis输出的直观解释：

$h_\theta(x)$ = 对于给定的输入x，y=1时估计的概率

$h_\theta(x) = P(y=1| x;\theta)$

$P(y=0|x;\theta) + P(y=1|x;\theta) = 1$

$P(y=0|x;\theta) = 1 – P(y=1|x;\theta)$

3) Decision boundary(决策边界)

$h_\theta(x) = g(\theta_0 + \theta_1 x_1 + \theta_2 x_2)$

$\theta_0, \theta_1, \theta_2$分别取-3, 1, 1,

4) Cost function(代价函数，成本函数)

Hypothesis可表示为:

$h_\theta(x) = \frac{1}{1+e^{-\theta^Tx}}$

Cost Function:

$J(\theta) = \frac{1}{m}\sum_{i=1}^m{\frac{1}{2}(h_\theta(x^{(i)}) – y^{(i)})^2}$

$Cost(h_\theta(x), y) = \frac{1}{2}(h_\theta(x) – y)^2$

(1) 0-1损失函数(0-1 loss function):

$L(Y,f(X)) = \left\{ \begin{array}{ll} 1, & Y \neq f(X)\\0, & Y = f(X)\end{array}\right.$

(2) 平方损失函数(quadratic loss function)

$L(Y,f(X)) = (Y – f(X))^2$

(3) 绝对损失函数(absolute loss function)

$L(Y,f(X)) = |Y – f(X)|$

(4) 对数损失函数(logarithmic loss function) 或对数似然损失函数(log-likelihood loss function)

$L(Y,P(Y|X)) = -logP(Y|X)$

5) Simplified cost function and gradient descent(简化版代价函数及梯度下降算法)

$min_\theta J(\theta)$

• Conjugate gradient method(共轭梯度法)
• Quasi-Newton method(拟牛顿法)
• BFGS method
• L-BFGS(Limited-memory BFGS)

1) Numerical Methods for Unconstrained Optimization and Nonlinear Equations（J.E. Dennis Jr. Robert B. Schnabel）
2) Numerical Optimization（Jorge Nocedal Stephen J. Wright）

7) Multi-class classification: One-vs-all(多类分类问题)

One-vs-all(one-vs-rest):

http://en.wikipedia.org/wiki/Sigmoid_function

http://en.wikipedia.org/wiki/Logistic_function

http://en.wikipedia.org/wiki/Loss_function

http://en.wikipedia.org/wiki/Quasi-Newton_method

http://en.wikipedia.org/wiki/BFGS_method

http://en.wikipedia.org/wiki/Limited-memory_BFGS

《Coursera公开课笔记: 斯坦福大学机器学习第六课“逻辑回归(Logistic Regression)”》有 1 条评论

1. 魏晨闯说：

代价函数求导之后(1/m)去哪了？

[回复]