欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 教育 > 锐评 > 《从U-Net到Transformer:深度模型在医学图像分割中的应用综述》论文阅读

《从U-Net到Transformer:深度模型在医学图像分割中的应用综述》论文阅读

2024/10/25 2:18:35 来源:https://blog.csdn.net/m0_56487684/article/details/140802986  浏览:    关键词:《从U-Net到Transformer:深度模型在医学图像分割中的应用综述》论文阅读

网络首发地址:https://link.cnki.net/urlid/51.1307.tp.20231026.1648.002

摘要:

        U-Net以卷积神经网络(CNN)为主干,其易于优化促使在医学图像分割领域的发展,

但只擅长获取局部特征,缺乏长期相关性解释。(就是说,只能很好抓住局部关系,不能很好把握全局关系,就像翻译时只是单词的堆砌,而不是顾及前后让整句话更顺畅合理)

        本文主要对近七年U型网络改进工作,Transformer与U型网络的结合,在Synapse和ACDC数据集上进行对比实验,最后证明transformer在图像分割上更有优势。

引言:

医学图像分割技术在CT, MRI,X-Ray,超声等广泛应用。传统技术主要有....,不能解决现代问题。为了解决这一问题,且更好治疗, 诞生了CAD系统,其中重要的就是医学图像处理。

2015提出U-Net奠定了图像分割的发展方向——FCN改进后,拥有完整encode-decode结构,和用于融合高低分辨率的跳跃连接。

本文主要内容(贡献):阐述了从U-Net到Transformer发展过程,以及各个方法论文的研究方法优劣,对不同研究目的提出参考性建议。

基于U-Net的相关改进

1. 从2D扩展到3D的U-Net

2. 残差思想:

milletar对编码器子块引入了残差连接,使用四次下采样操作,有助于减少网络在训练期间占用的的内存,且捕获深层特征。同时其通过非线性转换实现了数据增强。

3.密集思想

黄高博士在DenseNet[26]中提出,在神经网络 中,先前层与后续层相连接共同作为下一层的输入,通过最大 化信息流以消除梯度消失,并加强特征传播、鼓励特征重用。

可以从图像中提取不同尺寸的上下文信息,进一步提升网络 性能。

4.多机制组合

5.多网络模型

即网络与网络两个巧妙连接,如两个U-Net连接起来。

6.编解码器分支

7.基于transformer的变化

Transformer解决了局部性 的归纳偏差,使其更有能力建立非局部的相互关系。(其有位置编码,自注意力机制,能够掌控全局上下文关系。)

挑战和对应的解决方案(未来创新角度)

        医学图像数据集稀缺。——数据增强

         模型泛化性不足——(即针对A就不能应用于B,即容易过拟合)创新思路:你的适用于大器官,则用其他细胞分割算法来当对比算法。

                                  ——中途插入多层分别分析的结构。如多支路解码,多支路编码,又如UNet++的模型,增加减少支路,通过简单调参来实现泛化。

        

           模型复杂度——(当你参数不算多时,可以参照原文话术进行表述,体现你创新点)

        

最后作者在以下几个方面提供了建议:

        1. 增强特征提取强度:增加残差链接,密集连接, 增加开发深度,等

        2.加速收敛:加入残差连接

        3.消除梯度消失,避免过拟合

        4.扩大感受野(以更好掌控全局关系):增加编码器分支并集成ASPP来提升;与transformer自注意力模块相结合        

        5.实现全局关注:        unet与transformer相结合。

        6.控制参数量,降低计算复杂度:鼓励网络实行特征重用,增加信息流的同时占用更少参数

        7.增强空间信息提取:        扩展到3D空间

        8.解决Transformer细节特征提取问题:与关注局部的Unet结合

        9.解决Transformer计算复杂度问题:a.限制无关信息以降低自注意力复杂度 b.设计高效自注意力模块,调整Q,K,V的值。 

名词学习:

数据增强: 就是创建原数据的新变体然后进行训练的过程叫数据增强。创建新变体过程如旋转,剪切,擦除,噪点引入,遮挡,弹性变形,缩放等。  使得模型泛化能力更强,避免过拟合

ReLU 激活函数的定义是:ReLU(x)=max⁡(0,x)ReLU(x)=max(0,x)

(消除负数)

额外感受(收获):

1. 医学图像分割的本质是将错误的分析最小化

2. 算法不仅要考虑合理性,而且还要看训练数据集,是大器官,还是视网膜等微小细节的数据集。

GoogLeNet[22]中的Inception模块将全连接或普通卷积结 构转化为稀疏连接,以解决大量参数导致的过拟合问题[23]


 

怎么得出模型的优势?(抓住框架中每个模块的各自特征,进行互补或则增强)

文中提到TransUNet,二者结合既保留高分 辨率位置信息又继承低分辨率细节信息。这怎么得出的呢,

就在于CNN特别擅长捕捉局部特征和纹理信息,这些通常在图像的高分辨率表示中更容易被识别。而transformer通过自注意力机制能够捕捉长距离依赖关系,它不受限于局部区域,能够在整个图像范围内建立特征之间的联系,这有助于提取低分辨率的全局上下文信息。

做数据增强的时候可以用他的包,参考视频链接

开始跑实验的时候,最好把维度也打印出来,一方面便于理解,另一方面便于调试。

参考:

https://zhuanlan.zhihu.com/p/574835363(类似综述)

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com