特点
监督学习需要标注大量的数据,需要的成本和人力非常高。
无标注(无监督)数据的判别界面更有意义。
在半监督学习中,无标签数据往往远多于有标签数据。
半监督分类/回归
学习一个显式的映射关系
。
半监督聚类/降维
归纳学习
可以是没有见过的样本,需要显式的学习函数。
直推学习
样本一定是训练时见到过的样本,也就是说,测试数据集是训练数据集的一部分。
一般没有显式的学习函数。
假设
- 平滑假设:如果高密度空间中两个点距离较近, 那么对应的输出距离也应接近。
- 聚类假设:如果两个点在同一个
常用算法
自学习算法
初始仅少量样本有标签,将预测样本中置信度高的加入训练样本,不断循环重复。
可以引入置信度概念,每次将置信度高的测试样本加入训练样本,直到达到收敛条件。
缺点
- 早期的错误会强化。
- 无法保证一定会收敛,也无法从数学上证明一定收敛。
协同训练
将每个实例分成不同的两个特征集合,使其可以互相训练。
假设
- 特征可分裂
多视角学习
可以视为协同训练的延伸,多视角学习在视角选取上尽量不重合。
生成模型
生成式和判别式模型的区别
- 生成式模型对联合概率作假设。(朴素贝叶斯)
- 判别式模型对条件概率作假设。
EM算法
- E:打伪标签
半监督支持向量机 S3VMs
最大化所有数据的间隔。

发表回复