传统的计算机视觉方法通常包括图像预处理、特征提取、特征筛选、图像识别等几个步骤。
对于给定的数字图像,计算机在处理时要先执行二次采样、平滑去噪、对比度提升和尺度调整等预处理操作,再对图像中的线条、边缘等全局特征和边角、斑点等局部特征,乃至更加复杂的运动和纹理特征进行检测,检测到的特征会被进一步用来对目标进行分类,或者估测特定的参数。
在图像识别中,应用最广的深度模型非卷积神经网络莫属。
以卷积神经网络为代表的深度结构可以实现通用的物体识别算法;
深度残差网络将输出和输入之间的残差作为拟合对象,解决了深度神经网络训练难的问题;
密集连接网络采用全连接方式,实现了特征的高度重用,降低了参数数量和训练难度。
昇思的图像语义分割会有所不同。
FCN图像语义分割
(1)什么是FCN?
fcn是用于图像语义分割的一种框架。是首个端到端(end to end)进行像素级(pixel level)预测的全卷积网络。
(2)什么是语义分割?
语义分割是对图像中每个像素点进行分类。与普通的分类任务只输出某个类别不同,语义分割任务输出与输入大小相同的图像,输出图像的每个像素对应了输入图像每个像素的类别。语义在图像领域指的是图像的内容,对图片意思的理解。
(3)全卷积神经网络
FCN主要用于图像分割领域,是一种端到端的分割方法,是深度学习应用在图像语义分割的开山之作。通过进行像素级的预测直接得出与原图大小相等的label map。因FCN丢弃全连接层替换为全卷积层,网络所有层均为卷积层,故称为全卷积网络。
全卷积神经网络主要使用以下三种技术:
-
卷积化(Convolutional)
-
上采样(Upsample)
-
跳跃结构(Skip Layer)
FCN的核心贡献在于提出使用全卷积层,通过学习让图片实现端到端分割。与传统使用CNN进行图像分割的方法相比,FCN有两大明显的优点:一是可以接受任意大小的输入图像,无需要求所有的训练图像和测试图像具有固定的尺寸。二是更加高效,避免了由于使用像素块而带来的重复存储和计算卷积的问题。
同时FCN网络也存在待改进之处:
一是得到的结果仍不够精细。进行8倍上采样虽然比32倍的效果好了很多,但是上采样的结果仍比较模糊和平滑,尤其是边界处,网络对图像中的细节不敏感。 二是对各个像素进行分类,没有充分考虑像素与像素之间的关系(如不连续性和相似性)。忽略了在通常的基于像素分类的分割方法中使用的空间规整(spatial regularization)步骤,缺乏空间一致性。