目标检测是计算机视觉领域的研究热点和基础任务,其中基于锚点(Anchor)的目标检测已在众多领域得到广泛应用。当前锚点选取方法主要面临两个问题:基于特定数据集的先验取值尺寸固定、面对不同场景泛化能力弱。计算锚框的无监督K-means算法,受初始值影响较大,对目标尺寸较单一的数据集聚类产生的锚点差异较小,无法充分体现网络多尺度输出的特点。针对上述问题,本文提出一种基于多尺度的目标检测锚点构造方法(multi-scale-anchor,MSA),将聚类产生的锚点根据数据集本身的特性进行尺度的缩放和拉伸,优化的锚点即保留原数据集的特点也体现了模型多尺度的优势。另外,本方法应用在训练的预处理阶段,不增加模型推理时间。最后,选取单阶段主流算法YOLO(You Only Look Once),在多个不同场景的红外或工业场景数据集上进行丰富的实验。结果表明,多尺度锚点优化方法MSA能显著提高小样本场景的检测精度。
无人机进行红外航拍目标检测在交通、农业和军事等方面有着广泛应用。该领域的主要挑战有目标较小、相互遮挡、非刚体形变大以及红外成像纹理信息少、边缘特征弱等。针对以上问题,基于YOLOv5和结构重参数化优化思想,提出了一种针对航拍场景的目标检测模型Rep-YOLO。首先,在主干网络中引入RepVGG模块,提升模型特征提取能力;在模型推理时对RepVGG模块的多分支进行结构重参数化,减少网络分支和结构复杂度。其次,结合数据特征,改进检测网络颈部的路径聚合网络,提升检测算法在机载平台的精度-速度均衡能力。最后,在两个公开红外数据集进行对比实验,表明该算法的有效性。以南航ComNet航拍数据集为例,统计结果显示主要检测指标各类平均精度(mean Average Precision,mAP)提升5.9%,同时参数量和模型大小分别减少约29.7%和23.2%。另外,对Rep-YOLO在典型机载平台Jetson Nano上进行了模型部署验证,为航拍场景的检测算法改进和实际应用提供了可靠的技术支撑。