【反无人机数据集】【目标检测】基于深度学习和距离分析的无人机检测图像处理技术应用

在这里插入图片描述
Application of Image Processing Techniques for UAV Detection Using Deep Learning and Distance-Wise Analysis
基于深度学习和距离分析的无人机检测图像处理技术应用

0.论文摘要

无人机在我们的日常生活中有许多应用，可以用于农业、军事、商业、灾害救援、研发等多种用途。近年来，小型无人机/无人飞行器的使用显著增加。因此，小型无人机被滥用于非法活动（如恐怖主义和毒品走私）的潜在风险也在上升。因此，需要一种能够在各种环境中使用的准确且可靠的无人机识别技术。本文基于计算机视觉和深度学习的原理，使用了当前最先进的目标检测模型（即YOLO模型）的不同版本来检测小型无人机。为了提高小型无人机的检测精度，本文提出将多种图像处理技术应用于现有检测模型，从而显著提升了性能。在本研究中，在IoU阈值为50%的情况下，获得了96.7%的mAP分数，同时精度值为95%，召回率为95.6%。此外，还对无人机进行了距离分析（即近距离、中距离和远距离），以测量不同距离下的准确率。

关键词：深度学习；目标检测；无人机；YOLO

数据集链接

1.引言

无人机（UAV）是一种可以远程操作的航空器。它们可以实时远程控制，或预先编程以按照预定路线自主飞行。这种航空器通常被称为无人机，正在越来越多地应用于各个行业。由于其在多个领域的应用，无人机的需求和使用量每天都在增加。无人机在军事上用于空中监视和观察。武装部队通过货运无人机获得物资和武器。商业企业、政府机构、专业摄影师和爱好者都使用小型无人机。每年有成千上万的小型无人机被售出。这些产品很容易获得（无论是线下还是线上）。即使是完全的初学者也可以利用网上容易获得的组件组装一个小型无人机。大型飞机和地面设施，如燃料库，即使面对小型无人机也非常不安全。无人机可以在高空飞行并拍摄私人财产的照片，甚至可以通过窗户窥视房屋内部。为了解决这些问题，政府已经实施了相应的法规。执法机构目前采用多种技术来阻止非法无人机，无人机的拥有和操作也受到各种限制和监管。打击非法无人机的方法包括信号干扰、捕获和攻击。

从安全角度来看，检测无人机（因为它们可能携带爆炸物）或阻止安全和隐私泄露至关重要。因此，我们需要一个准确、可靠且能在各种环境中使用的无人机识别系统。已有许多研究利用各种目标检测技术（如RCNN和YOLO）来检测无人机。在本研究中，我们分析了各种图像处理技术，并结合YOLO（You Only Look Once）算法，以提高模型在检测未经授权的无人机（UAV）时的识别准确性。

2.相关工作

无人机（UAV）技术的使用正在迅速增加。如今，无人机被个人用于分发货物和在各种活动中拍摄照片。由于无人机可以进入私人领地，它们带来了严重的问题。YOLO（You Only Look Once）是一种流行的实时目标检测算法。YOLO方法使用单一神经网络应用于整个图像，将其划分为多个区域，并预测每个区域的边界框和概率。这种方法既快速又准确。为了实现实时无人机识别并比较两种模型的效率和平均精度（MAP），YOLOv2和YOLOv3通过自定义数据集进行了实现。在最近的一项研究中，提供了多个YOLO版本之间的比较[1]。基于无人机检测领域，增强YOLO模型的研究已被提出[2]，使其能够更精确地检测无人机，并将基于YOLOv3的算法应用于反无人机目标识别。为了预测物体的边界框，它使用了特征图的最后四个尺度，而不是前三个，这样可以收集更多的纹理和轮廓数据来识别小物体。最近还进行了基于增强YOLOv4目标检测模型的无人机检测技术研究[3]。通过轻量级处理，YOLOv4目标检测模型的速度得到了提升。为了进一步提高识别精度，应用了注意力机制中的CA（坐标注意力）模块。YOLOv5被视为改进的基准算法，以卷积神经网络为代表的深度学习方法显著提高了检测精度和速度[4]，相较于传统的手动特征目标检测算法。为了减少算法所需的计算量，使用shufflenetv2替代了原算法的主干网络。为了在保持计算成本较低的同时提高检测精度，算法中引入了CBMA模块。过去曾使用分而治之的策略[5]来提高小物体的检测性能。高分辨率图像被分割成多个图像块分别进行检测，并使用天空区域识别算法去除没有任何物体的纯天空区域。为了利用浅层中的空间信息，YOLOv5的颈部和检测头被移动到主干网络的较浅子层（在网络拓扑结构中）。无人机在不同背景下的明显相似性是实时无人机检测中的复杂挑战之一。

在最近的一项研究中，使用了增强的基于机器学习的物体检测模型YOLOv5（You Only Look Once）来开发一种自激活的基于图像的无人机检测系统，以防止入侵无人机突破限制区域[6]。在通过捕捉的影像区分无人机和鸟类后，另一项研究[7]采用了YOLOv2框架。作者利用精确率与召回率曲线来评估其方法的性能，召回率和精确率的百分位数均为90。许多研究工作探讨了使用Faster R-CNN[8]和单次检测器（SSD）[9]检测小物体的不同方法，以及使用Inception v2[10]和ResNet-101[11]区分鸟类和无人机的方法。作者使用了一个由11部影片中提取的8771帧图像组成的数据集，来检验各种结构的可靠性。在一组实验中，无人机远离摄像头，而在另一组实验中，摄像头远离无人机。Faster R-CNN与ResNet101的混合模型在召回率和精确率方面优于之前的解决方案。由于基于CFAR的检测器主要依赖操作员的技能来完成任务，例如计算环境噪声分布和选择检测窗口大小，并且由于小型无人机的信号通常较弱，因此在检测较小无人机时，这些检测器往往表现不佳[12]。为了解决这个问题，提出了一种具有两个头的卷积神经网络（CNN）——一个用于预测目标与补丁中心之间的偏移，另一个用于将距离-多普勒图补丁分类为包含目标或不包含目标。另一项基于改进的YOLOv4的研究[13]提供了83%的平均精度（mAP），比传统的YOLOv4模型提高了4%。提出了一种利用多维信号特征的无人机检测与定位系统[14]。该系统首先从控制器和无人机收集CSI数据和通信信号，随后提取SFS、WEE和PSE，并将其作为特征输入机器学习算法以检测无人机的存在。一旦检测到无人机，便使用超分辨率估计方法识别无人机的AOA和AOE进行定位。

超过13,000张移动目标无人机的图片被另一架移动无人机收集到一个名为Det-Fly的新数据集中[15]。该数据集比同类数据集更为完整，因为它包含了各种背景、视角、相对距离、飞行高度和光照条件下的真实场景。利用Det-Fly数据集，作者对八种深度学习技术进行了实验分析，提供了首次对视觉无人机识别深度学习方法的全面分析，据他们所知。评估结果突出了空对空无人机检测中的主要难点，并为未来算法的发展提供了前瞻性方向。研究人员提出了一种通过分类前景检测结果中的特征来改进无人机检测的技术[16]。利用前景检测周围区域的边缘强度和方向有助于从不断变化的背景中区分潜在的无人机目标。研究人员开发并实现了一种用于识别低空小型无人机（UAV）的系统[17]。该系统基于YOLO模型，并结合了两种神经网络，即ResNet和DenseNet。根据在小数据集上的实验，基于YOLO模型的检测方法可以显著提高复杂情况下低空无人机的识别能力。研究人员利用边缘计算提出了Fast-YOLOv4实时无人机目标检测技术[18]。此外，实时检测需要高度配置的硬件，如图形处理单元（GPU）。一项研究[19]试图通过提出You Only Look Once版本5（YOLOv5）一次性检测器来解决这些问题，该检测器可以使用预训练权重和数据增强来训练所提出的模型。一项研究工作提出了一种基于改进CenterNet的快速无人机目标检测算法[20]。它可以从收集的图像中提取深度特征，使用高斯核函数创建关键点特征图，并输出多个目标位置和类别的信息。参考文献[21]提出了一种名为增强自适应特征金字塔网络的目标检测算法DEAX，用于识别红外小型无人机的目标。此外，一些研究已经进行了目标检测和提取方法，使用雷达检测系统[22]。参考文献[23]提出了一种基于增强YOLOv3（You Only Look Once v3）网络的无人机识别方法，通过将深度学习方法与Gm-APD（盖革模式雪崩光电二极管）激光雷达获得的三维距离剖面融合。还提出了一种通用架构[24]，用于无人机对无人机的检测和跟踪算法，该算法使用安装在移动无人机平台上的摄像头。

通过研究该领域的各种相关工作，可以推断出大多数方法使用不同类型的卷积网络和不同版本的YOLO算法来提高各种捕获图像的识别准确率。上述部分工作对YOLO算法的先前版本在自建数据集上进行了比较分析，并获得了较高的准确率，这是因为他们在背景相似的有限数量图像上训练模型，导致模型过拟合，从而获得了高准确率。在相似地形图像上训练的模型无法在现实场景中产生令人信服的结果，因为现实场景中模型需要处理不同类型的背景。该领域的先前工作还缺乏对模型的距离范围分析（近距离、中距离、远距离），这是判断模型在不同应用中性能的一个非常关键的方面，因为许多模型在无人机非常接近观察点时可以获得高准确率，同时在无人机远离时表现较差。此外，还观察到，先前的工作在将数据集输入模型之前没有使用不同的图像处理技术，这可能会提高准确率。

为了解决上述现有研究的不足，采用了以下方法：

使用了包含多种类型无人机和多种地形的大规模数据集，解决了模型过拟合的问题，并为模型在不同背景下的测试提供了基准，确保了模型在真实场景中的可靠性。
在将数据输入模型之前，对数据集进行了不同的图像处理技术，从而提高了模型的准确性。
本文采用了最新版本的最先进的目标检测算法，其准确性高于之前的版本。
进行了距离分析，以测试模型在近、中、远距离下处理图像数据后的性能，这对于分析不同模型的性能至关重要。

3.方法

计算机视觉中的目标检测现象包括在数字照片或视频中识别感兴趣的物体。许多计算机视觉领域（如图像检索和视频监控）都使用目标检测技术。目标检测可以通过使用无监督的传统图像处理方法或通过有监督或无监督学习的深度学习方法来实现。基于深度学习的方法需要大量标注图像作为训练数据，并且可能受到GPU资源的限制。

3.1 目标检测器

基于深度学习的物体检测器需要完成以下两项任务：(1) 检测任意数量的物体；(2) 对每个物体进行分类，并使用边界框估计其大小。

因此，检测物体有两种方法：通过单阶段检测器或两阶段检测器。两阶段方法首先使用深度网络或传统的计算机视觉技术提出物体区域建议，然后基于从建议区域提取的特征，通过边界框回归进行物体分类。在初始阶段，两阶段物体检测器定位感兴趣区域，然后利用该区域定位裁剪区域。然而，由于裁剪是一个不可微的过程，这些多阶段检测器无法进行端到端训练。单阶段检测器无需区域建议阶段，可以直接在图像上估计边界框。这种方法可以应用于实时应用，因为它速度更快。两阶段技术更准确，但通常速度较慢。由于每张图像需要多个推理步骤，两阶段检测器的性能（每秒帧数）不如单阶段检测器。YOLO是目前最重要的单阶段物体识别技术之一。

3.2. YOLO

YOLO是“You Look Only Once”的缩写。该算法在单阶段（实时）中执行目标分类和定位。YOLO在检测过程中识别图像中所有类别的概率。图像被划分为网格单元，算法通过神经网络为每个网格单元分配边界框及其概率。然后，根据预测的概率对生成的边界框进行加权。YOLO使用卷积神经网络（CNN）快速识别目标，如其名称所示，只需通过神经网络进行一次前向传播即可识别目标。这意味着对整个图像应用单一预测算法。YOLO算法有许多版本；一些最常用的目标检测版本包括YOLO、YOLOv3、YOLOv4、YOLOv5、YOLOv7。YOLOv5和YOLOv7都使用.yaml文件进行配置，并基于PyTorch框架。在我们的项目中，YOLOv5通过Ultralytics Hub实现，这是一个开创性的机器学习和部署平台。YOLOv5和YOLOv7的标签是基于文本的。

一种更为紧凑和快速的YOLO版本，称为YOLOv5，专为在计算能力受限的设备（包括边缘设备和低功耗移动设备）上进行实时目标识别而开发。它采用了单阶段检测器架构和高效方法，如无锚点设计和个性化骨干网络。

另一方面，YOLOv7 是 YOLO 的一个更现代且更强大的版本，它通过使用多尺度特征金字塔网络（FPN）来提高检测精度。为了超越早期的 YOLO 版本，它包含了多种额外功能，例如基于锚点的检测、微调、训练流程以及增强的架构设计。与 YOLOv5 相比，YOLOv7 在典型的 GPU 系统（如 GTX 1650 ti 和 Quadro P2200）上运行较慢。然而，YOLOv7 在新型高速 GPU（如 Nvidia RTX 3090 和 Tesla A100）上运行速度很快。

3.2 图像处理

将图像转换为数字格式并执行特定程序以从中提取有用信息的过程称为图像处理。在实施特定的信号处理技术时，图像处理系统通常将所有图像解释为二维信号。图像可以被视为一个二维函数f(p, q)，其中p和q是空间坐标，函数f在任意坐标(p, q)处的振幅被称为该位置的图像强度或灰度值。

3.3.1. RGB

彩色图像在R、G、B三个平面上捕获，如图1a所示。彩色图像只是三个函数拼接在一起的结果。RGB图像中每个像素值在3个颜色通道中分别有3个值，每个值的范围从0到255。举例来说，红色通道中的“0”表示该像素中不存在红色，而值255表示该像素中红色达到了100%。其他两个通道中的像素值也可以以同样的方式解释。

在这里插入图片描述

3.3.2 灰度

在灰度图像中，所有类型的颜色信息都被移除，只保留各种深浅的灰色，其中白色最亮，黑色最暗。红、绿、蓝（通常称为RGB）的平均像素值（范围从0到255）被组合在一起。每个颜色通道的24位强度值被合并，以获得一个可接受的灰度值（8位）。这有助于简化算法，并消除与计算需求相关的困难。图1b展示了数据集中样本的彩色图像和灰度图像。

3.3.3 色调增强

模型将通过色调增强来考虑输入图像中物体和场景的不同色彩方案，色调增强会随机修改输入图像的颜色通道。这种方法可以帮助防止模型记住物体或场景的颜色。色调增强使模型能够同时考虑物体的边缘和几何形状以及它们的颜色，尽管输出图像的颜色在人类感知中可能显得奇怪甚至异常。图2展示了应用了色调增强的数据集中的一张样本图像。在这里，增强程度指的是对图像进行的随机修改量。此外，0度增强指的是原始图像，而180度/−180度意味着图像是负片。在本研究中，我们为50度和−50度的色调增强准备了数据集，这意味着对图像的颜色进行了轻微的改变。

在这里插入图片描述

3.3.4 边缘增强

边缘增强是一种锐化图像边缘的技术。边缘是指图像亮度发生变化的曲线。边缘检测旨在通过增强不同色调区域之间的对比度来构建理想化的线条。边缘增强滤镜通过Python Imaging Library（PIL）应用于数据集。图3展示了在应用边缘增强后，数据集中某张图像的示例。

在这里插入图片描述

通过摄像头拍摄的图像为RGB格式。为了测试YOLOv5和V7的工作效果，分别应用了上述所有图像预处理技术来训练无人机检测模型，并对获得的结果进行了比较。

4.实验

在本研究中，针对使用图像/帧进行无人机检测，我们采用了基于图像的YOLOv5和V7目标检测方法。在将图像提供给模型进行训练之前，应用了许多不同的图像预处理方法，并对它们各自的结果进行了比较。这里，图像以.jpg格式拍摄，标签则以.txt格式存储。

4.1 数据集

本研究使用的数据集主要由四旋翼无人机图像组成。大部分图像来自Kaggle [25]，其余图像使用智能手机相机自行拍摄。自行拍摄的图像考虑了视觉差异，用于进行距离（近、中、远）分析。仅尝试拍摄位于这些距离范围内的无人机。数据集包含1847张图像，按照80:20的比例划分为训练集和验证/测试集。还应用了许多图像预处理技术，例如灰度化、色调增强和边缘增强。例如，色调增强通过为每张图像生成两张新图像，将训练集增加到4753张图像。数据集使用不同的模型进行了测试，包括YOLOv5和YOLOv7。

用于训练的标签采用以下格式：Label-ID、X-CENTER-NORM、Y-CENTER-NORM、WIDTH-NORM、HEIGHT-NORM，并存储在文本文件中。Label-ID是classes.txt文件中的索引编号，而X-CENTER-NORM和Y-CENTER-NORM是边界框中心x和y坐标的归一化值。同样，WIDTH-NORM和HEIGHT-NORM分别表示边界框的宽度和高度的归一化值。

4.2 参数

在项目中，我们使用了以下参数来测量和验证训练模型的准确度：

精确率（Precision）——正确分类的正例数量与总正例数量的比率。
召回率（Recall）——测试集中正例数量与正确分类的正例数量的比率。
置信度分数（Confidence score）——表示分类器的确信程度以及边界框内包含目标对象的可能性；如果边界框内没有对象，置信度分数理想情况下应为零。
交并比（IoU）——表示两个边界框之间重叠程度的比率。IoU值越高，表示预测边界框与真实边界框的匹配度越高。
IoU阈值（IoU threshold）——指预测边界框与真实边界框之间的最小IoU值，只有当IoU达到或超过该阈值时，预测结果才被视为真正例。
平均精度（AP）——定义为PR曲线（精确率-召回率曲线）下的面积。例如，AP50表示当IoU阈值为50%时的平均精度分数。
平均精度均值（mAP）——即不同类别/类别中所有AP值的平均值。由于我们的研究中只有一个类别（无人机），因此AP和mAP相同。

在这里插入图片描述

4.3 工作

YOLO是一种闪电般快速的物体检测方法，它通过在完整图像上进行训练，立即提升检测性能。在这里，单个神经网络同时预测多个边界框以及这些框的类别概率（图5）。YOLO将输入图像分割成S×S的网格。如果一个物体的中心落在某个网格单元内，那么该网格单元就负责检测该物体。每个网格单元预测B个边界框以及每个框的置信度分数。这些置信度分数显示了模型对框内包含物体的信心程度，以及它认为框将被预测的准确度。置信度正式定义为 $P ro b (O bj ec t) * I O U$ 。如果网格单元中没有物体，则获得的置信度分数应为0。在没有物体的情况下，我们要求置信度分数与预测框和实际数据之间的IoU（交并比）分数相匹配。每个边界框由五个预测组成：x、y、w、h和置信度分数。这里，(x,y)坐标表示框的中心相对于网格单元边缘的位置。高度和宽度是相对于整个帧或图像进行预测的。置信度估计是最后一步，表示任何真实框与预测框之间的IoU。对于每个网格单元，条件类别概率 $P ro b (Cl a ss ∣ O bj ec t) = P (Cl ∣ O b)$ 同样被预测。这些概率根据物体所在的网格单元而变化。无论框有多少个实例，YOLO每个网格单元只预测一组类别概率。

在这里插入图片描述

在测试过程中，我们通过将每个框的条件类别概率与各自的框置信度预测相乘，得到每个框的类别特定置信度分数。这些置信度分数编码了类别在框中的可能性，以及预测框与对象的拟合程度。

在本研究中，我们应用了多种图像预处理技术后，使用YOLOv5和V7模型进行了无人机检测。对于这两个模型，我们使用SGD优化器，在150个epoch、批量大小为16、学习率为0.01的条件下测量了结果。在提出的工作中，还对两个模型在真阳性率（灵敏度）、精确率、召回率、交并比（IoU）和平均精度（mAP）方面进行了详细的性能评估。基于准确率，我们比较了这两个模型在不同图像格式下的表现。我们在模型中使用的不同图像格式包括RGB、灰度、色调以及两级边缘增强。

最初，两个模型都使用RGB格式的图像进行了测试。然后，对由灰度格式图像组成的相同数据集进行了检测准确率的测试。接着，应用了色调增强技术，因为该技术有助于确保模型不会记住特定物体或场景的颜色。色调增强使模型能够同时考虑物体的边缘、几何形状以及颜色，尽管输出图像的颜色在人类感知中可能显得奇怪甚至异常。随后，对图像应用了50°的色调增强，随机改变颜色通道，并将训练数据集的大小从1476张图像增加到4428张，因为色调增强为每张图像生成了两张新图像。之后，使用Python Imaging Library (PIL)对原始RGB图像数据集进行了边缘增强处理。为了增加图像或视频的锐度感，边缘增强滤镜提高了边缘的对比度。该滤镜在图像中锐利边缘周围的区域增加了对比度，例如主体与背景之间的边界。应用了两个级别的边缘增强，以及它们各自的掩模/滤镜（图6）。

在这里插入图片描述

在边缘增强后，观察到由于背景线条和无人机边缘的增强，背景物体产生的过多噪声导致结果较差。训练后，针对每种图像增强数据集格式，计算了每个模型的精度、召回率和MAP分数，如表1所示。灰度图像数据集的训练时间最短。同时观察到，YOLOv7的训练时间比YOLOv5更长。

在这里插入图片描述

5.结论和解释

在对YOLOv5和YOLOv7模型进行RGB图像、灰度图像、色调增强图像和边缘增强图像的训练和测试后，得到了以下结果。

在比较所有格式的准确率时，采用色调增强的YOLOv5模型表现出了最高的准确率。该模型的精确率为95，召回率为95.6，在IoU阈值为0.5时的MAP得分为96.7，而在IoU阈值范围为0.5:0.95时，MAP得分为61.4。因此，通过不同模型的比较，我们得到的最佳输出结果来自采用色调增强的YOLOv5模型，其准确率在所有模型中最高。

使用色相增强数据集的YOLOv5模型获得了最高的准确率，因为模型训练时使用了相同图像但略微调整了颜色通道。通过这种方法，模型学会了更好地检测边缘，而不是依赖于颜色。

在YOLOv7的情况下，RGB数据集提供了最高的准确率；YOLOv7比YOLOv5使用了更多的浮点运算（计算量更大），因此从RGB图像中提取了更多的特征信息。原始的RGB信息提供了物体的完整表示，包括颜色、纹理、形状和亮度，这些对于物体检测可能非常重要。当使用预处理数据集时，信息可能在预处理步骤中丢失或改变，从而影响检测结果的准确性。

在这里插入图片描述

由于使用色相增强数据集的YOLOv5模型获得了最佳结果，其精度、召回率和mAP分数随epoch变化的曲线如图7所示。

图8至图13展示了针对不同模型获得的各图像的置信度分数。分析在三个不同的距离范围内进行——近、中、远。对于每个样本图像，展示了基于不同图像增强数据集训练的YOLOv5和V7模型的输出结果。

在这里插入图片描述

图8. 范围：近距离（3至6英尺/1至2米）。(a) RGB YOLOv5，置信度得分 = 0.83；(b) RGB YOLOv7，置信度得分 = 0.79；© 色调 YOLOv5，置信度得分 = 0.80；(d) 色调 YOLOv7，置信度得分 = 0.71；(e) 灰度 YOLOv5，置信度得分 = 0.83；(f) 灰度 YOLOv7，置信度得分 = 0.62；(g) 边缘增强掩码 -1 YOLOv5，置信度得分 = 0.83；(h) 边缘增强掩码 -1 YOLOv7，置信度得分 = 0.69；(i) 边缘增强掩码 -2 YOLOv5，置信度得分 = 0.79；(j) 边缘增强掩码 -2 YOLOv7，置信度得分 = 0.78。

在这里插入图片描述

图9. 范围：近景（森林背景）。(a) RGB YOLOv5，置信度得分 = 0.80；(b) RGB YOLOv7，置信度得分 = 0.63；© 色调 YOLOv5，置信度得分 = 0.89；(d) 色调 YOLOv7，置信度得分 = 未检测到；(e) 灰度 YOLOv5，置信度得分 = 0.87；(f) 灰度 YOLOv7，置信度得分 = 未检测到；(g) 边缘增强掩码 -1 YOLOv5，置信度得分 = 0.87；(h) 边缘增强掩码 -1 YOLOv7，置信度得分 = 未检测到；(i) 边缘增强掩码 -2 YOLOv5，置信度得分 = 0.89；(j) 边缘增强掩码 -2 YOLOv7，置信度得分 = 未检测到。

在这里插入图片描述

图10. 范围：中（20至25英尺/6至8米）。(a) RGB YOLOv5，置信度得分 = 0.70；(b) RGB YOLOv7，置信度得分 = 0.63；© 色调 YOLOv5，置信度得分 = 0.78；(d) 色调 YOLOv7，置信度得分 = 未检测到；(e) 灰度 YOLOv5，置信度得分 = 0.83；(f) 灰度 YOLOv7，置信度得分 = 0.47；(g) 边缘增强掩码 -1 YOLOv5，置信度得分 = 0.80；(h) 边缘增强掩码 -1 YOLOv7，置信度得分 = 未检测到；(i) 边缘增强掩码 -2 YOLOv5，置信度得分 = 0.82；(j) 边缘增强掩码 -2 YOLOv7，置信度得分 = 未检测到。

在这里插入图片描述

图11. 范围：中（森林背景）。(a) RGB YOLOv5，置信度得分 = 0.84；(b) RGB YOLOv7，置信度得分 = 未检测到；© 色调 YOLOv5，置信度得分 = 0.87；(d) 色调 YOLOv7，置信度得分 = 未检测到；(e) 灰度 YOLOv5，置信度得分 = 0.63；(f) 灰度 YOLOv7，置信度得分 = 未检测到；(g) 边缘增强掩码 -1 YOLOv5，置信度得分 = 0.88；(h) 边缘增强掩码 -1 YOLOv7，置信度得分 = 未检测到；(i) 边缘增强掩码 -2 YOLOv5，置信度得分 = 0.69；(j) 边缘增强掩码 -2 YOLOv7，置信度得分 = 未检测到。

在这里插入图片描述

图12. 范围：远（大于25英尺/8米）。(a) RGB YOLOv5，置信度得分 = 0.78；(b) RGB YOLOv7，置信度得分 = 0.79；© 色调 YOLOv5，置信度得分 = 0.82；(d) 色调 YOLOv7，置信度得分 = 未检测到；(e) 灰度 YOLOv5，置信度得分 = 0.92；(f) 灰度 YOLOv7，置信度得分 = 0.60；(g) 边缘增强掩码 -1 YOLOv5，置信度得分 = 0.87；(h) 边缘增强掩码 -1 YOLOv7，置信度得分 = 未检测到；(i) 边缘增强掩码 -2 YOLOv5，置信度得分 = 0.76；(j) 边缘增强掩码 -2 YOLOv7，置信度得分 = 0.56。

在这里插入图片描述

图13. 范围：远。(a) RGB YOLOv5，置信度得分 = 0.37；(b) RGB YOLOv7，置信度得分 = 未检测到；© 色调 YOLOv5，置信度得分 = 0.90；(d) 色调 YOLOv7，置信度得分 = 未检测到；(e) 灰度 YOLOv5，置信度得分 = 0.84；(f) 灰度 YOLOv7，置信度得分 = 0.38；(g) 边缘增强掩码 -1 YOLOv5，置信度得分 = 0.69；(h) 边缘增强掩码 -1 YOLOv7，置信度得分 = 未检测到；(i) 边缘增强掩码 -2 YOLOv5，置信度得分 = 0.60；(j) 边缘增强掩码 -2 YOLOv7，置信度得分 = 0.39。

表2展示了YOLOv5和V7模型在不同图像预处理技术（即RGB图像、灰度化、色调增强和边缘增强）处理的数据集上进行训练后，按距离分析得到的结果。

在这里插入图片描述

在近距离分析中，无人机与相机/光圈的距离非常近，大约为3到6英尺或1到2米。图8展示了无人机在空中时从数据集中获取的样本图像。在近距离和清晰背景（天空）的情况下，使用RGB数据集和带有mask-1的边缘增强数据集训练的YOLOv5模型获得了最佳结果，两者的置信度得分均为83%。同样，从图9中可以看到，当无人机在森林背景的近距离范围内时，使用色调增强数据集和边缘增强mask-2的YOLOv5模型获得了最高的置信度得分（89%）。可以观察到，即使在森林背景中，YOLOv5也给出了良好的结果，尽管用肉眼很难发现无人机。此外，YOLOv7模型在大多数情况下表现不佳，因为它未能识别/定位无人机。

中距离分析是通过从数据集中（测试集）采集无人机距离约为20至25英尺/6至8米时的样本图像进行的。图10展示了无人机在空中的图像，背景中有一些云层。在这种情况下，基于灰度数据集训练的YOLOv5模型获得了最佳结果，置信度得分为83%。YOLOv5的输出置信度得分范围在63%至88%之间，而YOLOv7的得分范围在47%至63%之间，尽管在大多数情况下未能检测到无人机。同样，在图11中可以看到，在森林背景下（当用肉眼难以识别无人机时），基于边缘增强数据集的YOLOv5模型获得了最高的置信度得分，mask-1为88%。此外，YOLOv7模型在大多数情况下表现不佳，未能识别或定位无人机。YOLOv5的输出置信度得分范围在63%至88%之间，而YOLOv7在所有情况下均未能检测到无人机。YOLOv7甚至在使用RGB图像数据集时，对一根树枝给出了80%的错误置信度得分。在某些情况下，模型错误地将其他物体（如树枝）预测为无人机，导致错误的识别。

在远距离分析中，我们从数据集中选取了所有无人机距离拍摄点超过25英尺/8米的图像作为测试样本。选择这些图像的动机是为了测试我们的模型在各种环境下的性能。图12展示了我们的模型在天空晴朗且周围有一些树木的区域中的表现。在这种情况下，使用灰度数据集训练的YOLOv5模型获得了最佳结果，置信度为83%，其次是使用色调增强数据集训练的YOLOv5模型；总体而言，在所有使用的图像预处理技术中，YOLOv5的置信度在78%到92%之间。

另一方面，YOLOv7的输出置信度分数保持在56%到79%之间，尽管在大多数情况下它未能检测到无人机。同样，图13展示了被建筑物和树木包围的区域中的无人机图像。在这种条件下，即使肉眼难以检测到无人机，使用色调增强数据集训练的YOLOv7模型给出了最佳结果（置信度为90%），其次是使用灰度图像训练的YOLOv5模型（置信度为84%）；总体而言，YOLOv5在所有使用的图像预处理方法中给出的置信度分数在37%到90%之间。另一方面，YOLOv7的置信度分数保持在38%到39%之间，因为大多数时候它未能检测到无人机。

使用色调增强数据集的YOLOv5模型以96.7的mAP得分和0.5的IoU阈值超越了所有其他模型。为了进一步测试该模型在现实场景中的识别能力，使用了包含鸟类和无人机的图像。

图14展示了YOLOv5在使用色调增强数据集进行训练后，能够准确识别并定位每张图像中的无人机和鸟类。可以推断，该模型不仅在识别无人机方面优于其他模型，还具备区分鸟类和无人机的能力，这对于模型在现实世界中有效运行是一个非常重要的要求。

在这里插入图片描述

图14. 色调增强的YOLOv5模型区分无人机与鸟类的能力分析：(a) 色调YOLOv5置信度分数（鸟类）= 0.64，置信度分数（无人机）= 0.82；(b) 色调YOLOv5置信度分数（鸟类）= 0.42，置信度分数（无人机）= 0.55；© 色调YOLOv5置信度分数（鸟类）= 0.75；(d) 色调YOLOv5置信度分数（鸟类）= 0.84。

6.总结

从目前获得的结果可以推断，YOLOv5在无人机检测方面优于YOLOv7，即在无人机检测的一致性和获得更高置信度分数方面表现更好，且误识别率极低。此外，还可以推断出某些图像处理技术显著提升了模型的性能。YOLOv5在色调增强情况下的mAP得分为96.7% $[m A P @0.50]$ ，这是所有比较中（YOLOv5和YOLOv7模型在不同图像增强技术下的表现，如灰度化、色调增强和边缘增强）的最高得分。从近距离、中距离和远距离的分析中可以得出，YOLOv5模型在近距离和中距离范围内很少未能识别无人机；此外，它能够在这些范围内区分鸟类和无人机，而在远距离范围内，尤其是在不同的复杂背景下，识别无人机较为困难。YOLOv7模型在复杂背景下，无论距离如何，大多未能检测到无人机。在不考虑特殊测试案例的情况下，无人机检测的置信度分数随着距离的增加而稳步下降。在清晰背景下，YOLOv5的置信度分数在极端情况下为75%至92%，而在复杂背景下（如森林背景），则下降至45%至80%，如图8和图10所示。提高森林背景下检测精度的一种方法是仅调整RGB图像的红色和蓝色通道，这样可以增强除绿色背景以外的物体，使模型更容易检测森林地形中的不同物体。相反，如果在其他背景下（如平原背景）进行这种调整，可能会导致模型性能下降；因此，为了使模型在各种地形（而不仅仅是森林等特定地形）中表现更可靠，不能采用调整红色和蓝色通道的方法。YOLOv7在清晰背景下的近距离范围内表现与YOLOv5相似。然而，在较大距离或复杂背景下，前者的结果明显低于后者。本研究的未来方向将包括训练模型以适应夜间和其他背景/地形（如城市、山脉等）；我们还将进一步研究不同的图像预处理技术或更新的模型。