第十章半监督学习

特点

监督学习需要标注大量的数据，需要的成本和人力非常高。
无标注（无监督）数据的判别界面更有意义。

在半监督学习中，无标签数据往往远多于有标签数据。

半监督分类/回归

学习一个显式的映射关系 $f$ 。

半监督聚类/降维

归纳学习

可以是没有见过的样本，需要显式的学习函数。

直推学习

样本一定是训练时见到过的样本，也就是说，测试数据集是训练数据集的一部分。

一般没有显式的学习函数。

假设

平滑假设：如果高密度空间中两个点距离较近, 那么对应的输出距离也应接近。
聚类假设：如果两个点在同一个

常用算法

自学习算法

初始仅少量样本有标签，将预测样本中置信度高的加入训练样本，不断循环重复。

可以引入置信度概念，每次将置信度高的测试样本加入训练样本，直到达到收敛条件。

缺点

早期的错误会强化。
无法保证一定会收敛，也无法从数学上证明一定收敛。

协同训练

将每个实例分成不同的两个特征集合，使其可以互相训练。

假设

特征可分裂

多视角学习

可以视为协同训练的延伸，多视角学习在视角选取上尽量不重合。

生成模型

生成式和判别式模型的区别

生成式模型对联合概率作假设。（朴素贝叶斯）
判别式模型对条件概率作假设。

EM算法

E：打伪标签

半监督支持向量机 S³VMs

最大化所有数据的间隔。

鹌鹑之家

第十章半监督学习

特点

半监督分类/回归

半监督聚类/降维

归纳学习

直推学习

假设

常用算法

自学习算法

缺点

协同训练

假设

多视角学习

生成模型

生成式和判别式模型的区别

半监督支持向量机 S³VMs

评论

发表回复取消回复

第十章 半监督学习

特点

半监督分类/回归

半监督聚类/降维

归纳学习

直推学习

假设

常用算法

自学习算法

缺点

协同训练

假设

多视角学习

生成模型

生成式和判别式模型的区别

半监督支持向量机 S3VMs

评论

发表回复 取消回复

第十章半监督学习

半监督支持向量机 S³VMs

发表回复取消回复