欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 汽车 > 维修 > 【2024|FTransUNet|论文解读2】融合视界:解密FTransUNet在遥感语义分割中的创新突破

【2024|FTransUNet|论文解读2】融合视界:解密FTransUNet在遥感语义分割中的创新突破

2024/10/26 2:37:49 来源:https://blog.csdn.net/gaoxiaoxiao1209/article/details/142919434  浏览:    关键词:【2024|FTransUNet|论文解读2】融合视界:解密FTransUNet在遥感语义分割中的创新突破

【2024|FTransUNet|论文解读2】融合视界:解密FTransUNet在遥感语义分割中的创新突破

【2024|FTransUNet|论文解读2】融合视界:解密FTransUNet在遥感语义分割中的创新突破


文章目录

  • 【2024|FTransUNet|论文解读2】融合视界:解密FTransUNet在遥感语义分割中的创新突破
  • 3.相关工作
    • A.单模态语义分割
    • B.基于CNN的多模态语义分割
    • C.基于CNN和Transformer的多模态语义分割


欢迎宝子们点赞、关注、收藏!欢迎宝子们批评指正!
祝所有的硕博生都能遇到好的导师!好的审稿人!好的同门!顺利毕业!

大多数高校硕博生毕业要求需要参加学术会议,发表EI或者SCI检索的学术论文会议论文:
可访问艾思科蓝官网,浏览即将召开的学术会议列表。会议入口:https://ais.cn/u/mmmiUz

论文链接:https://ieeexplore.ieee.org/document/10458980
代码链接:https://github.com/sstary/SSRS

3.相关工作

A.单模态语义分割

开创性工作[29]提出了第一个基于CNN的端到端模型,即全卷积网络(FCN),用于语义分割。然而,由于其解码器中的上采样操作过于简化,FCN存在边缘模糊和分割不准确的问题。为了解决这一问题,UNet[30]采用了经典的编码-解码网络结构,在解码器中引入了扩展路径。具体而言,UNet通过逐步下采样提取多尺度特征,解码器则通过逐步恢复空间分辨率来学习更多上下文语义信息。

尽管性能良好,CNN方法在提取全局语义信息和长距离依赖方面效果有限,原因在于CNN的感受野较小[40], [41]。为克服这一挑战,Transformer架构在[27]中被提出,用于捕捉自然语言处理中的长距离关系。最近,基于Transformer的ViT模型在[26]中成功应用于计算机视觉任务。凭借其序列到序列建模能力,ViT在提取全局上下文信息方面相比CNN有显著提升,激发了许多后续研究[31], [42], [43], [44], [45], [46]。

B.基于CNN的多模态语义分割

随着地球观测技术的进步,多模态遥感数据如光学影像、多光谱影像和数字地表模型(DSM)数据变得越来越普遍。DSM提供了地物的高度信息,对于识别具有一致高度的目标(如道路和建筑物)非常重要,并且可以提供有助于所有类别分割的清晰边界信息,从而提升整体分割性能[19], [47]。

为了利用这些多模态数据,基于深度学习框架的多模态融合方案被开发出来。例如,ResUNet-a[48]通过将红绿蓝(RGB)影像和DSM堆叠成四通道输入进行融合。然而,这种简单的融合方式无法有效应对模态间的异质性统计属性和噪声水平[49], [50]。为了解决这一问题,FuseNet[14]提出了一种简单的双分支网络架构,分别对RGB和DSM数据进行编码,并在每个卷积块之后通过逐元素相加的方式融合特征图。受此启发,vFuseNet[15]采用多尺度融合策略,但其简单的逐元素相加设计限制了融合效果。

CMGFNet[47]提出了一种门控融合模块,自适应地学习区分性特征并去除无关信息。IIHN[51]通过引入可解释的直觉机制构建了超图网络。CIMFNet[52]和ABHNet[53]分别从相邻层次的角度探索特征融合,前者基于跨层门控机制,后者基于注意力机制和残差连接。然而,这些方法由于忽视了长距离空间关系,在提取全局语义信息方面效果有限。
在这里插入图片描述

C.基于CNN和Transformer的多模态语义分割

近年来,Transformer架构因其在提取上下文信息和融合多模态数据方面的卓越能力,被广泛应用于语义分割中的多模态融合任务[20], [26], [32], [54], [55], [56], [57], [58], [59]。例如,TransFuser[56]结合了多个Transformer,在每个卷积块后融合特征图;SwinFusion[57]首先通过卷积层提取浅层特征,然后使用基于自注意力机制的Swin Transformer[54]生成深层特征,展示了Transformer也能作为多模态融合任务的骨干网络。在遥感领域,CMFNet[19]通过跨模态多尺度融合Transformer改进了跳跃连接,使其能够学习尺度变化显著的地物的鲁棒特征表示。EDFT[58]基于Swin Transformer构建了双分支网络,并通过深度感知的自注意力模块融合多模态特征;MFTransNet[59]则基于CNN构建双分支网络,使用自注意力模块、通道注意力模块和空间注意力模块进行特征融合。

尽管这些方法表现出色,但它们并未充分利用CNN和Transformer在特征提取和融合中的优势,导致局部细节和全局语义信息建模不足,进而影响特征表示效果。如表I所列,现有方法可分为两类:一类包括TransFuser[56]、SwinFusion[57]、CMFNet[19]和MFTransUNet[59],另一类包括EDFT[58]。与这些方法仅使用CNN或Transformer进行特征提取或融合不同,提出的FTransUNet充分结合了CNN和设计精良的三阶段Transformer,在特征提取和融合中同时发挥作用。这种策略对于实现有效的多模态多层次融合至关重要。

在这里插入图片描述

欢迎宝子们点赞、关注、收藏!欢迎宝子们批评指正!
祝所有的硕博生都能遇到好的导师!好的审稿人!好的同门!顺利毕业!

大多数高校硕博生毕业要求需要参加学术会议,发表EI或者SCI检索的学术论文会议论文:
可访问艾思科蓝官网,浏览即将召开的学术会议列表。会议入口:https://ais.cn/u/mmmiUz

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com