欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 新闻 > 资讯 > Understanding Deep Learning第一章Introduction

Understanding Deep Learning第一章Introduction

2025/1/8 18:23:52 来源:https://blog.csdn.net/EnochChen_/article/details/144917646  浏览:    关键词:Understanding Deep Learning第一章Introduction

书籍官网Understanding Deep Learning,写博客目的为了我自己快速回顾书上的知识,有的章节没有写因为我认为不太重要

1.1监督学习

监督学习模型定义了从输入数据到输出预测的映射。

 机器学习是人工智能的一个领域,它将数学模型拟合到观测数据中。它可以大致分为监督学习、无监督学习和强化学习。深度神经网络对这些领域都有贡献。

 1.1.1回归与分类问题

1.2a中的模型根据输入特征(如面积和卧室数量)预测房屋的价格。这是一个回归问题,因为模型返回一个连续的数字(而不是一个类别分配)。

图1.2 b中的模型将分子的化学结构作为输入,并预测了熔点和沸点。这是一个多元回归问题,因为它预测了不止一个数字。

1.2c中的模型接收包含餐厅评论的文本字符串作为输入,并预测该评论是正面的还是负面的。这是一个二元分类问题,因为模型试图将输入分配到两个类别之一。输出向量包含输入属于每个类别的概率。

 1.2d1.2e描述了多类分类问题。模型将输入分配给N > 2个类别中的一个。

1.2d 输入是一个音频文件,模型预测它包含哪种类型的音乐。

 1.2e 输入是一个图像,模型预测它包含哪个对象。在每种情况下,模型都会返回一个大小为N的向量,其中包含N个类别的概率。

1.1.2输入

1.2a房屋定价示例中,输入是固定长度的向量,其中包含表征该属性的值。这是一个表格数据的例子,因为它没有内部结构;如果我们改变输入的顺序并构建一个新模型,那么我们期望模型预测保持不变

1.2c餐厅评论的输入是一个文本。这里输入的顺序很重要妻子吃了鸡和鸡吃了我妻子是不一样的。在将文本传递给模型之前,必须将其编码为数字形式。这里,我们使用大小为10,000的固定词汇表,并简单地连接单词索引。

1.2d对于音乐分类,输入向量可能是固定大小的(可能是一个10秒的剪辑),但是是非常高维的。数字音频通常以44.1 kHz采样,用16位整数表示,所以一个10秒的片段由44.1万个整数组成。显然,监督学习模型必须能够处理大量输入。

1.2e图像分类示例中的输入(由每个像素的连接RGB值组成)也是巨大的。此外,它的结构自然是二维的;彼此上下的两个像素是密切相关的,即使它们在输入向量中不相邻。

1.2b考虑预测分子熔点和沸点的模型的输入。一个分子可以包含不同数量的原子,这些原子可以以不同的方式连接。在这种情况下,模型必须同时摄取分子的几何结构和组成模型的原子。

1.1.3机器学习模型

 1.3模型表示将输入(孩子的年龄)与输出(孩子的身高)关联起来的一系列关系。使用训练数据选择特定的关系,训练数据由输入/输出对(橙色点)组成。当我们训练模型时,我们在可能的关系中寻找一个能很好地描述数据的关系。这里,训练的模型是青色曲线,可以用来计算任何年龄的身高由此可见,刚才五个分类回归的模型需要标记输入/输出对进行训练。例如,音乐分类模型将需要大量的音频片段,而人类专家已经确定了每个音频片段的类型。这些输入/输出对在培训过程中扮演教师或监督者的角色,这就产生了术语“监督学习”。

1.1.5结构化输出 

1.4a描述了用于语义分割的多元二元分类模型。在这里,输入图像的每个像素都被分配了一个二进制标签,表明它是属于奶牛还是背景。

 1.4b显示了一个多元回归模型,其中输入是街景图像,输出是每个像素的深度。在这两种情况下,输出都是高维和结构化的。然而,这种结构与输入紧密相连,这一点可以被利用;如果一个像素被标记为“母牛”,那么具有相似RGB值的邻居可能具有相同的标签。

1.4c-e描述了三种输出具有复杂的结构,与输入没有紧密联系模型

c显示了一个模型,其中输入是一个音频文件,输出是从该文件转录的单词。

d是一个翻译模型,其中输入是英语文本体,输出包含法语翻译。 

e描述了一个非常具有挑战性的任务,其中输入是描述性文本,并且模型必须生成与该描述匹配的图像。 

原则上cde任务可以在标准的监督学习框架中解决,但由于两个原因,它们更加困难

首先,输出可能真的是模棱两可的;从一个英语句子到一个法语句子有多个有效的翻译,以及与任何标题兼容的多个图像

第二,产出包含相当大的结构;并不是所有的单词字符串都能构成有效的英语和法语句子,也不是所有的RGB值集合都能构成可信的图像。除了学习映射之外,我们还必须尊重输出的“语法”

幸运的是,这种“语法”可以在不需要输出标签的情况下学习。例如,我们可以通过学习大量文本数据的统计来学习如何形成有效的英语句子。这提供了下一部分的联系,该部分将考虑无监督学习模型。

1.2监督学习

从没有相应输出标签的输入数据构建模型称为无监督学习;没有输出标签意味着没有“监督”

与其学习从输入到输出的映射,其目标是描述或理解数据的结构。与监督式学习的情况一样,数据可能具有非常不同的特征;它可以是离散的或连续的,低维的或高维的,长度恒定的或可变的。

1.2.1生成模型

1.5图像生成模型。

左图:两张图片是由猫图片训练的模型生成的。这些不是真的猫,而是概率模型中的样本。

右图:由建筑物图像训练的模型生成的两幅图像。

 1.6这是由文本数据生成模型合成的短篇故事。该模型描述了一个概率分布,为每个输出字符串分配一个概率。从模型中抽样创建的字符串遵循训练数据(这里是短篇故事)的统计数据,但以前从未见过。

1.7原图(左)中,男孩被金属电缆遮住了。这些不需要的区域(中心)被删除,生成模型在剩余像素必须保持不变的约束下合成新图像(右) 

 1.8条件文本合成。给定一个初始文本主体(黑色),文本的生成模型可以通过合成字符串的“缺失”剩余部分来合理地继续字符串。由GPT3生成。

 1.9上图为脸的变化。人脸大约包含42块肌肉,所以在相同的光线下,只用42个数字就可以描述同一个人图像中的大部分变化

1.2.2潜在变量

一些(但不是全部)生成模型利用了这样一个事实,即数据的维度可能比观察到的变量的原始数量要低。例如,有效且有意义的英语句子的数量远远少于随机抽取单词创建的字符串的数量。这导致我们可以使用较少数量的潜在变量来描述每个数据示例。在这里,深度学习的作用是描述这些潜在变量和数据之间的映射。根据设计,潜在变量通常具有简单的概率分布。从这个分布中抽样,传递结果通过深度学习模型,我们可以创建新的样本。

1.10潜在变量。许多生成模型使用深度学习模型来描述低维“潜在”变量与观察到的高维数据之间的关系。潜变量设计成一个简单的概率分布。因此,可以通过从潜在变量的简单分布中采样,然后使用深度学习模型将样本映射到观察到的数据空间来生成新的示例。 

 1.11图像插值。在每一行中,左边和右边的图像是实数,中间的三个图像表示由生成模型创建的插值序列。通过为两张真实图像找到这些变量,插值它们的值,然后使用这些中间变量来创建新图像,我们可以生成中间结果,这些中间结果在视觉上是可信的,并且混合了两张原始图像的特征。

 1.12由标题“时代广场滑板上的泰迪熊”生成的多个图像。

1.3强化学习

机器学习的最后一个领域是强化学习。这种范式引入了智能体的概念,它生活在一个世界中,可以在每个时间步执行特定的操作

这些行为改变了系统的状态,但不一定以确定的方式改变采取行动也可以产生奖励,强化学习的目标是让代理学习选择平均能带来高奖励的行动。

1.3.1个例子

考虑教一个人形机器人运动。机器人可以在给定的时间内执行有限数量的动作(移动不同的关节),这些动作会改变世界的状态(它的姿势)。我们可能会因为机器人到达障碍中的检查点而奖励它,当它收到奖励时,这些奖励是不相关的。这是当然的。为了到达每个检查点,它必须执行许多操作,并且不清楚是哪个实例的临时信用分配问题

第二个例子是学习下棋。同样,代理在任何给定时间都有一组有效的动作(象棋移动)。然而,这些行动以一种不确定的方式改变了系统的状态,对于任何行动的选择,对手玩家可能会做出许多不同的反应。在这里,我们可能会基于捕获棋子而设置奖励结构,或者在游戏结束时为获胜设置单一奖励。在后一种情况下,时间信用分配问题是极端的;这个系统必须知道,在它所做的众多动作中,哪些是对成功或失败有帮助的。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com