高维向量:人类无法理解的维度。
无监督方法:
PCA把(不同的1)维度下降并聚在一起。
自监督学习:自己当自己标签。
无监督学习:让相同的特征离得更近。
怎么离得更近?
对比学习:对原图进行增广,提取自己和自己(的增广)共同的特征(交集),归为一类。
(模型必须具有特征提取能力)
对抗生成网络:判别器和生成器对抗,性能越来越好。
***关注模型的训练时,最该关注梯度从何而来。
回归任务梯度来源于真实值y于预测值y的差距。
分类任务梯度来源于两个概率分布的交叉熵损失。
GAN模型,判别器梯度来源于分类任务,生成器把判别器的准确率当成他的梯度(越低越好)。
现在不用GAN,都用扩散模型。
Cycle-GAN:
生成式自监督:
loss来源于原始图片与还原图片之间的差异。
第一种:
把自己的一部分当作标签。模型只看到一部分,然后生成一张图片,和自己的原图进行对比生成loss。
第二种:
原图的黑白当作x,彩色当作y
文字的自监督:(效果很好,网上文字资料很多)
把遮盖后的文字当成x,原来的文字当作y。
预训练:预训练的任务和后面的任务没有关系,只是让模型具有特征提取能力。
经过预训练的模型,下游任务只需要少量的数据。
特征分离:将不同的图片提取出风格和内容特征,再用一张图片的风格特征融合另一张的内容。
如何提取出风格和内容特征?
可以用两个分类任务,一个风格分类任务,一个内容分类任务。
AI在玩特征,本质是进行特征的变换。