第十章 半监督学习

特点

监督学习需要标注大量的数据,需要的成本和人力非常高。
无标注(无监督)数据的判别界面更有意义。

在半监督学习中,无标签数据往往远多于有标签数据。

半监督分类/回归

学习一个显式的映射关系 f

半监督聚类/降维

归纳学习

可以是没有见过的样本,需要显式的学习函数。

直推学习

样本一定是训练时见到过的样本,也就是说,测试数据集是训练数据集的一部分。

一般没有显式的学习函数。

假设

  • 平滑假设:如果高密度空间中两个点距离较近, 那么对应的输出距离也应接近。
  • 聚类假设:如果两个点在同一个

常用算法

自学习算法

初始仅少量样本有标签,将预测样本中置信度高的加入训练样本,不断循环重复。

可以引入置信度概念,每次将置信度高的测试样本加入训练样本,直到达到收敛条件。

缺点

  • 早期的错误会强化。
  • 无法保证一定会收敛,也无法从数学上证明一定收敛。

协同训练

将每个实例分成不同的两个特征集合,使其可以互相训练。

假设

  • 特征可分裂

多视角学习

可以视为协同训练的延伸,多视角学习在视角选取上尽量不重合。

生成模型

生成式和判别式模型的区别

  • 生成式模型对联合概率作假设。(朴素贝叶斯)
  • 判别式模型对条件概率作假设。

EM算法

  • E:打伪标签

半监督支持向量机 S3VMs

最大化所有数据的间隔。


评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注