欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 房产 > 建筑 > YOLO11改进-Backbone-使用MobileMamba替换YOLO backbone 提高检测精度

YOLO11改进-Backbone-使用MobileMamba替换YOLO backbone 提高检测精度

2025/4/21 4:29:00 来源:https://blog.csdn.net/qq_64693987/article/details/147351793  浏览:    关键词:YOLO11改进-Backbone-使用MobileMamba替换YOLO backbone 提高检测精度

轻量化模型的技术瓶颈

        CNN 的局限性:传统 CNN(如 MobileNet)依赖局部感受野,难以捕捉长距离依赖关系,在高分辨率任务(如语义分割)中需通过增加计算量提升性能,效率低下。

        Transformer 的效率缺陷:Vision Transformer(ViT)虽能建模全局信息,但二次计算复杂度(O(N2))在高分辨率场景下计算成本极高,限制实时性应用。

        状态空间模型(SSM)的潜力与不足:以 Mamba 为代表的 SSM 凭借线性计算复杂度(O(N))成为新方向,但现有轻量级 Mamba 模型仅关注FLOPs,实际推理速度(Throughput)和精度不足,尤其在高分辨率下游任务中表现欠佳。

        设计兼顾高效推理多尺度特征建模的轻量级视觉模型,解决现有方法在速度与精度上的失衡,适用于移动设备和高分辨率场景(如目标检测、语义分割)。

上面是原模型,下面是改进模型

改进后的

1. MobileMamba介绍 

        SSA 的核心理论是通过计算不同序列对应通道内的注意力权重,来聚合处理后的序列。这种设计能够捕捉不同序列间的复杂依赖关系。其理论基础源于注意力机制在深度学习中的广泛应用,注意力机制可以让模型更加关注重要的信息。在 SSA 中,通过对不同序列特征的处理和分析,计算出每个序列在不同通道上的重要程度,即注意力权重,然后根据这些权重对序列进行加权求和,从而实现对不同序列信息的有效整合 。

状态空间模型(SSM)与 Mamba 基础

        Mamba 的长距离建模:基于 SSM 的离散化状态转移,通过矩阵指数运算(A=exp(ΔA))和卷积核展开(K)实现长序列线性复杂度建模,捕捉全局依赖。

        小波变换增强(WTE-Mamba):引入 Haar 小波变换,将特征图分解为 ** 低频(全局结构)高频(边缘细节)** 分量。对高频分量进行卷积后逆变换(IWT),在不显著增加计算量的前提下扩大感受野,增强边缘等细节提取能力。

2. 多感受野特征交互模块(MRFFI):通过全局 - 局部特征融合,提升模型对多尺度上下文和细节的感知能力。

        特征三分支设计全局分支(WTE-Mamba):通过双向 Mamba 提取全局特征,结合小波变换增强高频细节(如公式 xGO​=xmO​+xwO​ 所示,融合全局建模与局部卷积结果)。局部分支(MK-DeConv):采用多内核深度卷积(如 3×3、5×5、7×7)拆分通道,捕捉多尺度局部信息,通过拼接(Concat)实现跨尺度交互。恒等映射分支:保留部分通道直接输出,减少高维空间冗余,降低计算复杂度。

        MobileMamba 的结构设计聚焦于轻量化、多尺度特征融合与高效推理,整体框架简洁且层次分明,主要由以下核心部分构成:

整体架构:三阶段高效设计

        MobileMamba 采用三阶段下采样架构,区别于传统四阶段网络(如 ResNet)的早期密集下采样策略。第一阶段通过 16×16 的 PatchEmbed 模块将输入图像快速下采样至原始尺寸的 1/16(如输入 224×224 图像→14×14 特征图),后续阶段逐步加深网络深度并调整通道数(如从 Stage1 的C1​到 Stage3 的C3​)。这种设计减少了中间层的特征图尺寸,降低计算量的同时保持高推理速度 —— 实验表明,在相同吞吐量下,三阶段网络比四阶段网络 Top-1 精度高 0.4%,且模型变体覆盖从 255M 到 4.3G FLOPs 的广泛计算范围,适配不同设备需求(如移动端到 GPU 端)。

核心模块:多感受野特征交互(MRFFI)

        MRFFI 模块是 MobileMamba 的核心创新点,集成于每个网络块中,实现全局依赖建模与多尺度局部特征的高效融合

         全局特征分支(WTE-Mamba):输入特征的部分通道(比例为ξ,如第一阶段 0.8)通过双向 Mamba 模块进行全局建模,捕捉长距离依赖。同时,引入 Haar 小波变换将特征分解为低频(全局结构)和高频(边缘细节)分量,对高频分量进行卷积后通过逆小波变换(IWT)恢复尺寸,与 Mamba 输出相加,增强边缘等高频细节的提取能力,扩大有效感受野(ERF)。

        局部特征分支(MK-DeConv):另一部分通道(比例为μ,如第一阶段 0.2)通过多内核深度卷积(如 3×3、5×5、7×7)拆分处理,每个分支采用不同内核尺寸捕捉多尺度局部信息,最终拼接输出,提升模型对不同大小目标或区域的感知能力。

        恒等映射分支:剩余通道直接通过恒等映射输出,减少高维空间的特征冗余,降低计算复杂度的同时维持信息完整性。

2. YOLOv11与MobileMamba的结合           

        MobileMamba 替换 YOLO backbone 时,凭借线性复杂度的状态空间模型高效捕捉全局依赖,结合多感受野模块融合高低频特征,可提升目标检测中长距离关联与多尺度目标的感知能力;其轻量化三阶段架构在保持高速推理的同时(如 GPU 吞吐量比 LocalVim 快 21 倍),分类精度达 83.6%,迁移至检测任务能显著提升 mAP,实现速度与精度的平衡。

3. MobileMamba代码部分

视频讲解:

YOLOv8_improve/YOLOv11.md at master · tgf123/YOLOv8_improve · GitHub

用一篇论文教您如何使用YOLOv11改进模块写一篇1、2区论文_哔哩哔哩_bilibili

YOLOv11模型改进讲解,教您如何修改YOLOv11_哔哩哔哩_bilibili

YOLOv11全部代码,现有几十种改进机制。

 4. MobileMamba引入到YOLOv11中

     第五:运行成功

from sympy import falsefrom ultralytics.models import NAS, RTDETR, SAM, YOLO, FastSAM, YOLOWorldif __name__=="__main__":# 使用自己的YOLOv8.yamy文件搭建模型并加载预训练权重训练模型model = YOLO(r"E:\Part_time_job_orders\YOLO\YOLOv11\ultralytics\cfg\models\11\yolo11_MobileMamba.yamy")\.load(r'E:\Part_time_job_orders\YOLO\YOLOv11\yolo11n.pt')  # build from YAML and transfer weightsresults = model.train(data=r'E:\Part_time_job_orders\YOLO\YOLOv11\ultralytics\cfg\datasets\VOC_my.yaml',epochs=300,imgsz=640,batch=64,# cache = False,# single_cls = False,  # 是否是单类别检测# workers = 0,# resume=r'D:/model/yolov8/runs/detect/train/weights/last.pt',amp = True)

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词