Datawhale AI 夏令营-CV竞赛-Task2

# Datawhale AI 夏令营

夏令营手册：从零上手CV竞赛

比赛：2024“大运河杯”数据开发应用创新大赛——城市治理赛道

代码运行平台：厚德云

赛题任务

本赛题的任务是开发智能识别系统，用于自动检测和分类城市管理中的违规行为。通过对摄像头捕获的视频进行分析，自动准确识别违规行为，并及时向管理部门发出告警，以实现更高效的城市管理。

baseline代码解析

物体检测

本赛题的任务是处理计算机视觉中的物体检测任务，物体检测任务的目标是在在图像或视频帧中识别和定位感兴趣的物体。物体检测算法不仅要识别图像中的对象属于哪个类别，还要确定它们在图像中的具体位置，通常以边界框（bounding box）的形式表示。
请添加图片描述

物体检测的步骤

输入：物体检测算法的输入通常是一张图像或视频帧。
特征提取：算法使用深度学习模型（如卷积神经网络CNN）来提取图像的特征。这些特征捕捉了图像中的视觉信息，为后续的物体识别和定位提供基础。
候选区域生成：在某些检测算法中，如基于区域的卷积神经网络（R-CNN）及其变体，首先需要生成图像中的候选区域，这些区域可能包含感兴趣的物体。
区域分类和边界框回归：对于每个候选区域，算法需要判断它是否包含特定类别的物体，并预测物体的边界框。这通常涉及到分类任务和回归任务的结合。
非极大值抑制（NMS）：在检测过程中，可能会产生多个重叠的边界框，用于表示同一物体。NMS是一种常用的技术，用于选择最佳的边界框并去除多余的框。

物体检测算法分类

One-Stage（一阶段）和Two-Stage（两阶段）模型

One-Stage模型，如YOLO（You Only Look Once）和SSD（Single Shot Detection），直接在单次网络评估中预测图像中所有物体的类别和位置信息。这种方法的优点是速度快，适合实时应用，但可能在精度上不如Two-Stage模型。
Two-Stage模型，如Faster R-CNN，首先使用区域提议网络（Region Proposal Network, RPN）生成候选区域，然后对这些区域进行分类和边界框的精细调整。这种方法的优点是精度高，但速度相对较慢。

请添加图片描述

这两个模型的不同之处在于，One-Stage一般是在单个卷积神经网络中同时预测类别和位置，而Two-Stage则将检测任务分为两步：选择候选区域和候选区域的分类与定位，One-Stage就是省去了选择候选区域这一步骤，实现了更快的检测速度，但是在精度上就不够采用Two-Stage的高。同样的，Two-Stage模型通过两步过程提高了检测的准确性，但同时也增加了计算的复杂性和时间消耗。

YOLO模型

YOLO（You Only Look Once），目前较流行的实时目标检测算法，在2015年由Joseph Redmon等人提出，YOLO的核心思想是将目标检测任务视为一个单一的回归问题，直接从图像像素到边界框坐标和类别概率的映射。这种设计使得YOLO能够以非常快的速度进行目标检测，同时保持较高的精度，特别适合需要实时处理的应用场景。

请添加图片描述

YOLO算法特点

YOLO算法的一个显著特点是它在单个网络评估中同时预测多个边界框和类别概率，而不是像传统的滑动窗口方法那样多次评估。
YOLO使用一个卷积神经网络（CNN）来提取图像特征，然后使用这些特征来预测边界框和类别概率。YOLO的网络结构通常包括多个卷积层和池化层。
YOLO为每个边界框预测一个置信度，这个置信度反映了边界框包含目标的概率以及预测的类别。置信度的计算公式是：Pr(Object) * IOU(pred, truth)，其中Pr(Object)表示格子中存在目标的概率，IOU(pred, truth)表示预测框和真实框的交并比。

YOLO数据集格式

YOLO算法的标注格式主要使用.txt文件来存储图像中物体的标注信息。每个图像都有一个对应的.txt文件，文件中的每行表示一个物体的标注，包括物体的类别索引和边界框（bounding box）的坐标。以下是YOLO标注格式的详细介绍：

类别索引：每个物体的类别由一个整数索引表示，索引对应于预先定义的类别列表。
边界框坐标：边界框由其中心点坐标(x_center, y_center)和宽度width、高度height组成。这些值通常是归一化到图像宽度和高度的比例值，范围在0到1之间。
坐标格式：边界框坐标通常按照[class_index x_center y_center width height]的格式记录，其中class_index是类别索引，x_center和y_center是边界框中心点的x和y坐标，width和height是边界框的宽度和高度。

请添加图片描述

在YOLO的训练过程中，这样的配置文件允许用户轻松地指定数据集的位置和类别信息，从而无需硬编码在训练脚本中。具体来说，这段配置的含义如下：

path: 指定了数据集的根目录路径，即所有数据子文件夹的上级目录。这里的路径是相对于当前配置文件的路径或者相对于执行训练脚本的工作目录。
train: 定义了训练集图像的相对路径。在训练模型时，程序会在指定的路径下查找图像文件。
val: 定义了验证集图像的相对路径。验证集用于在训练过程中评估模型性能，避免过拟合。
nc: 表示类别的数量，这里设置为2，意味着数据集中有两类物体需要被识别。
names: 是一个列表，包含了每个类别的名称。这里有两个类别，名称分别是"0"和"1"。这些名称在训练和测试过程中用于引用特定的类别。

# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: ../dataset/  # dataset root dir
train: images/train/  # train images (relative to 'path') 128 images
val: images/val/  # train images (relative to 'path') 128 images# Classes
nc: 2  # number of classes
names: ["0", '1']  # class names

YOLO训练日志

在使用YOLO进行训练时，生成的exp/detect/train类型的文件夹是训练过程中的一个关键组成部分。

模型权重 (.pt 或 .pth 文件): 训练过程中保存的模型权重，可以用于后续的测试或继续训练。
日志文件 (.log 文件): 包含训练过程中的所有输出信息，如损失值、精度、速度等。
配置文件 (.yaml 或 .cfg 文件): 训练时使用的配置文件副本，记录了数据路径、类别名、模型架构等设置。
图表和可视化: 有时YOLO会生成训练过程中的性能图表，如损失曲线、精度曲线等。
测试结果: 如果训练过程中包括了测试阶段，可能会有测试结果的保存，如检测结果的图片或统计数据。

选择YOLO的理由

赛题最终目标是开发一套智能识别系统，能够自动检测和分类城市管理中的违规行为。该系统应利用先进的图像处理和计算机视觉技术，通过对摄像头捕获的视频进行分析，自动准确识别违规行为，并及时向管理部门发出告警，以实现更高效的城市管理。而YOLO有以下优点：

**速度快：**YOLO的设计目标是实现快速的对象检测，它在保持相对高准确度的同时，能够实现高帧率的实时检测。
**易于实现：**YOLO的架构相对简单，易于理解和实现，这使得它在学术和工业界都得到了广泛的应用。
**版本迭代：**YOLO自2016年首次发布以来，已经经历了多个版本的迭代（如YOLOv5、YOLOv6、YOLOv7等），每个版本都在性能和效率上有所提升。
**社区支持：**YOLO拥有一个活跃的开发者社区，提供了大量的教程、工具和预训练模型，这使得小白也可以快速上手并应用YOLO。
**灵活性：**YOLO的架构允许用户根据特定需求调整网络结构，例如改变输入图像的尺寸或调整网络的深度。

区，提供了大量的教程、工具和预训练模型，这使得小白也可以快速上手并应用YOLO。
5. **灵活性：**YOLO的架构允许用户根据特定需求调整网络结构，例如改变输入图像的尺寸或调整网络的深度。

因此在本赛题任务中，需要的是对图像中的行为进行快速分析，能够实时处理，因此采用的目标检测模型一定要够快。