第五章 统计机器学习

机器学习

定义

机器学习更强调面向算法,而统计学更偏重于面向模型

换而言之,机器学习强调算法的结果要好,所以机器学习很关注损失函数。而统计学要先扔出来一大堆模型假设,然后站在模型上面通过严格的数学推导做出结果。

统计机器学习

是基于数据构建概率统计模型并运用模型对数据进行预测分析的一门学科。

学习任务

  • 经验(E): 训练数据
  • 模型(T)—需要学习的目标函数
  • 学习算法: 怎么样从经验中推断出模型
  • 评价(P): 测试数据

框架

  1. 输入 N
    • 独立同分布 i.i.d 的训练样本 (x^i, y^i) \in X \times Y, i = 1, 2, ..., N
      • 对于回归,Y 是连续的;
      • 对于分类,Y 是类别;
      • 对于排序,Y 是序数。
  2. 目标函数 f \in \mathbf{F}
    • 对于线性回归,f 是线性的;
    • 对于广义线性回归,f 是非线性的。
  3. 损失函数
    • 对于回归, L(f; x, y) = (f(x) - y)^2
      • 最小化均方误差(MSE)的回归函数由条件分布 p(y|x)y 的均值给出。
    • 对于分类, L(f;x, y) = I_{\{f(x) \neq y \}}
  4. 期望风险
    • 对于回归, \int(f(x) - y)^2dP(x,y)
    • 对于分类,\int I_{\{f(x) \neq y \}} = P(f(x) \neq y ) = \sum_{f(x) \neq C_i} P(C_i|x)P(x)

风险最小化

期望风险最小化

R_{exp}(f) = \int L(f;x,y)dP(x,y)

经验风险最小化ERM

R_{emp}(f) = \frac1N \sum_{i = 1}^{N} L(f;x^i, y^i)

  • 有过拟合风险。

结构风险最小化SRM

R_{sr m}(f) = \frac1N \sum_{i = 1}^{N} L(f;x^i, y^i) + \lambda J(f)

  • \lambda J(f) 是惩罚参数,也称正则项,起到避免过拟合的作用。
    • \lambda 越大,说明正则项越重要,一般小的 \lambda 对应大的复杂度。

训练和测试

训练集和测试集一般是不同的,机器学习的目标是在测试集上取得好的成果。

范数

  • L_1 范数对应Lasso回归,拉向坐标轴,即尝试将某些坐标设置为0(特征选择)。
  • L_2 范数对应岭回归,直接拉向原点。

泛化能力

expected loss=bias^2+variance+noise

  • Bias 度量了模型的期望预测和真实结果的偏离程度
  • Variance 刻画了数据扰动所造成的影响
  • Noise 刻画了问题的难易程度

偏差-方差分解

  • f_D(x) 表示在数据集 D 上训练的预测函数。
  • f(x) 表示最优函数,如回归问题中,f(x) = E(y | x)

    \[<span class="ql-right-eqno">   </span><span class="ql-left-eqno">   </span><img src="http://www.be-a-quail.com/wp-content/ql-cache/quicklatex.com-1588fa72a0a3f7e1aea500fd0dea522d_l3.png" height="108" width="693" class="ql-img-displayed-equation quicklatex-auto-format" alt="\begin{align*} E((f_D(x) - f(x))^2) &= E(f_D(x)^2 - 2f_D(x)f(x) + f(x)^2) \\&= E(f_D(x)^2) - 2E(f_D(x)f(x)) + E(f(x)^2) \\&= D(f_D(x)) + E(f_D(x))^2 + D(f(x)) + E(f(x))^2 - 2E(f_D(x))E(f(x)) \\&= D(f_D(x)) + D(f(x)) + (E(f_D(x)) - E(f(x)))^2 \end{align*}" title="Rendered by QuickLaTeX.com"/>\]

模型复杂度

  • 非常灵活的模型具有低偏差和高方差。
  • 相对刚性的模型有大的偏差和低的方差。
  • 具有最佳预测能力的模型是使得偏差和方差之间最佳平衡的模型。

泛化分析

泛化误差

E(f) = \sum\sum I_{\{f(x) \neq y\}}p(x,y)dxdy

训练误差

\hat{E} (f) = \sum_{i = 1}^N I_{\{f(x) \neq y\}}

本章为引入,无作业


评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注