作者，略微@知乎(已授权)

来源丨https://zhuanlan.zhihu.com/p/358441134

极市平台编辑

文章开头直接放上自己的项目代码:

https://github.com/hukaixuan19970627/YOLOv5_DOTA_OBBgithub.com/hukaixuan19970627/YOLOv5_DOTA_OBB

(以下是最初版本的代码，最新代码是GitHub为准）

star?请多多益善。

以下改造基于2020年.10.11日上传的YOLOv5项目

现成的YOLOv5代码真的很香。不管口碑如何，反正我用起来挺爽的。毕竟一个开源项目的学术价值和工程应用价值只要占其中之一就值得称赞，v5在项目上手真的很友好，建议大家自己去体验一下。

本文默认读者对YOLOv对5的原理和代码结构有了基本的了解，如果从未接触过，请参考本文：

深眼：后浪进攻yolov5深度可视化分析：https://zhuanlan.zhihu.com/p/183838757

目标检测方法采用的边框标记方法应根据被检测对象本身的形状特征进行改变。原始YOLOv5项目的应用场景是自然场景中的目标，目标检测框是水平矩形框（Horizontal Bounding Box，HBB），毕竟我们的视角是水平视角。

当视角发生变化时，二维图像中物体的形状特征会发生变化。为了更好地匹配图像特征，人们提出了各种边框标记方法，如从交通监测(鸟瞰)的角度来看，可以用椭圆框标记物体：

视角继续上升到无人机/卫星的高度，俯视角下物体的形状特征继续改变。此时，框架标记方法有更多选择：

至于选择合适的边框标记方法有什么作用，我个人的理解如下：

标记方法越准确，在网络训练中提供的冗余信息就越少；先验越充分，网络的学习计划就越少，有利于约束网络的训练方向，减少网络的收敛时间；
当目标对象太紧时，可以避免准确的标记NMS错杀已检出的目标。

以本图为例，准确的标记可以确保物体之间的紧密性IOU为0；如果将标记方法改为水平目标边框，检测效果将是可怕的。

以上文章的主要思想是缓解网络训练中旋转目标标注模式产生的边界问题，其实这种边界问题可以用一句话来概括:由于学习的目标参数是周期性的，损失值会在周期变化的边界上突然增加，从而增加网络学习的难度。这句话可以参考下图来理解:

长边定义法以180度回归θ为例，θ ∈[-90，90)；正常训练时，网络预测θ值为88，目标真实θ值为89，网络学习的角度距离为1，真实情况下两者之间的差异为1；在边界条件下，网络预测θ值为89，目标真实θ值为-90，网络学习的角度距离为179，真实情况下两者的差值为1.

那么如何处理边界问题呢？θ以边界问题为例)

寻找一种新的旋转目标定义方法，它不包含周期变化参数，但可以表示周期旋转目标对象，从根本上消除边界问题；（Anchor free/mask的思路，PolarDet、P-RSDet基于极坐标系表示任何四边形物体，BBA-Vectors、O^2-DNet以向量为基础表示有向矩形，ROPDet、Beyond Bounding Box、Oriented Reppoints用点集来表示任何形状的物体，)
使用损失函数Smooth L单独考虑每个参数时，同样的周期性赋予损失函数和角度，使得边界处θ差值可以很大，但是loss实际上变化很小；或者综合考虑所有回归参数的影响，使用旋转IoU然而，损失函数也可以避免边界问题RIoU不可导，近似可导的相关工作可以参考KLD、GWD，工程上实现RIoU可指导工作可参考：https://github.com/csuhan/s2anet/blob/master/configs/rotated_iou/README.md
θ从回归问题到分类问题离散连续问题，避免边界)

其中2，3yangxue大佬们都有相应的解决方案，可以去他的主页参考。CSL是3思想的体现，只是CSL因为当θ成为分类问题后，网络无法学习角度距离信息。例如，真实的角度是-90。我们期望网络预测89和-89造成的损失值是相同的，因为角度距离实际上是1。

所以CSL实际上，这是一通过分类实现回归思想的解决方案，让我们移动上面的文章。我们直接使用结果。基于180度回归的长边定义法中的参数仅为θ有边界问题，但是CSL刚好又可以处理了θ边界问题，那我们暂且认为“CSL 长边定义法的组合相对较好。暂时的原因是yangxue在最新的文章中，老板提出了这种方法的缺点：

当时心情如下，还是方法1。anchor free一劳永逸一劳永逸；

但是这篇文章的一部分我还没有彻底理解，我们还是只用CSL 长边定义法就够了，后期的升级工作交给大家。

标注方案确定后，可开始一系列改造工作。

正文：

所有基于深度学习的目标检测器项目的结构都分为：

数据加载器(图像预处理)--> BackBone(提取目标特征) --> Neck(收集组合目标特征) --> Head(预测部分) --> 损失函数部分

YOLOv4论文截的图

一、数据加载部分

首先，在进入网络之前，我们必须知道我们的数据形式是什么，因为我们使用长边定义法，所以我们的注释文件格式是：

[  classid    x_c   y_c   longside   shortside    Θ  ]  Θ∈[0, 180)   * longside: 旋转矩形框的最长边  * shortside: 对应最长边的另一边  * Θ: x轴顺时针旋转遇到最长边所经过的角度

至于如何转换数据形式，充分利用它cv2.minAreaRect()函数总结规则就可以了。我的另一篇文章说得很清楚。你可以搬家：

略略略：DOTA数据格式转YOLO数据格式工具(cv2.minAreaRect踩坑记录)：https://zhuanlan.zhihu.com/p/356416158)

注意opencv4.1.2版本cv2.minAreaRect()函数产生的最小外部矩形框架（x，y，w，h，θ）几个大坑:

(1) 在绝大数情况下 Θ∈[-90, 0)；

(2) 一些水平或垂直的目标框架θ值为0；

(3) width或height有时输出0, 与此同时Θ = 90；

(4) 输出的width或height有时会超过图片本身的宽度和高度，即归一化时的数据>1。

接下来是图像数据和label我们必须熟悉数据进入程序backbone以前，在数据加载器过程中labels数据的维度变化。

原始yolov5中，labels数据维度一直是（X_LT, Y_LT, X_RB, Y_RB）左上角右下角两点坐标表示水平矩形框存在，并一直在进行归一化和反归一化操作

因为我们采用的边框定义法是[x_c y_c longside shortside Θ]，边框的角度信息只存在于θ我们完全可以做到 [x_c y_c longside shortside] 视为水平目标框架，所以我们只需要在数据加载部分labels原始数据的基础上添加一个θ维度，只要不涉及，就会引起labels角度变化的代码不需要改变其处理逻辑。

注意：数据加载器中有大量的归一化和反一化操作，以及大量涉及图像宽度和高度的数据变化，因此，网络输入图像size：HEIGHT 必须= WIDTH，在长边定义法中longside和shorside与图像的宽度和高度没有严格的对应关系。

数据加载器涉及三种数据增强方法：Mosaic，random_perspective(仿射矩阵增强)。

其中Mosaic，仿射矩阵增强的目的是（X_LT, Y_LT, X_RB, Y_RB）增强数据格式，修改时添加θ维度是可以的，但是仿射矩阵增强函数 Translation、Shear、Rotation、Scale、Perspective、Center 6种据增强方式，其中旋转与形变仿射的变换会引起目标角度上的改变。

所以只要超参数中的 ['perspective']=0，['degrees']=0 ,这块函数代码就不需要修改逻辑部分，为了方便我们直接把涉及到角度的增强放在最后的普通数据增强方式中。

random_perspective函数的部分代码（仿射矩阵增强）

在普通数据增强代码块中添加角度方面的数据增强

注意：Mosaic操作中会同时触发MixUp数据增强操作，但是在遥感/无人机应用场景中我个人认为并不适用，首先背景复杂就是该场景中的普遍难题，MixUp会融合两张图像，图像中的小目标会掺杂另一张图的背景信息（包含形似物或噪声），从而影响小目标的特征提取。（不过一切以实验结果为准）

本人的在数据加载器部分使用的超参数列表

二、Backbone部分、Neck部分

提取图像特征层的结构都不需要改动。

三、Head部分

head部分也就是yolo.py文件中的Detect类，由于我们将θ转为分类问题，因此每个anchor负责预测的参数数量为 (x_c y_c longside shortside score)+num_classes+angle_classes。修改Detect类的构造函数即可。

Detect类构造函数修改：增加180个角度分类通道

四、损失函数部分

损失函数共有四个部分：置信度损失、class分类损失、θ角度分类损失、bbox边框回归损失。

（1）计算损失前的准备工作

损失的计算需要 targets 与 predicts，每个数据的维度都要有所对应，因此需要general.py文件中的build_targets函数生成目标真实GT的类别信息列表、边框参数信息列表、Anchor索引列表、Anchor尺寸信息列表、角度类别信息列表。

其中Anchor索引列表用于检索网络预测结果中对应的anchor，从而将其标记为正样本。yolov5为了保证正样本的数量，在正样本标记策略中采用了比较暴力的策略：原本yolov3仅仅采用当前GT中心所在的网格中的anchor进行正样本标记，而yolov5不仅采用当前网格中的anchor标记为正样本，同时还会标记相邻两个网格的anchor为正样本。

这种处理逻辑个人暂不评价好坏，但是yolov5源码在代码实现上显然考虑不够周全，目标中心所属网格如果刚好在图像的边界位置，yolov5的源码有时会输出超过featuremap尺寸的索引。这种bug表现在训练中就是某个时刻yolov5的训练就会中断：

Traceback (most recent call last):
File "train.py", line 457, in <module>
train(hyp, opt, device, tb_writer)
File "train.py", line 270, in train
loss, loss_items = compute_loss(pred, targets.to(device), model) # loss scaled by batch_size
File "/mnt/G/1125/rotation-yolov5-master/utils/general.py", line 530, in compute_loss
tobj[b, a, gj, gi] = (1.0 - model.gr) + model.gr * iou.detach().clamp(0).type(tobj.dtype) # iou ratio
RuntimeError: CUDA error: device-side assert triggered

上述报错显然是索引时超出数组取值范围的问题，解决方法也很简单，先查询是哪些参数超出了索引范围，当运行出错时，进入pdb调试，打印当前所有索引参数：

然后就发现网格索引gj，gi偶尔会超出当前featuremap的索引范围。（举例:featuremap大小为32×32，网格索引范围为0-31，但是build_targets函数偶尔会输出索引值32，此时出现bug，训练中断）

然而我当时在yolov5项目源码的Issues中却发现没人提交这种问题，原因也很简单，自然场景的下的目标很难标注在图片的边界位置，但是遥感/无人机图像显然相反，由于会经过裁剪，极其容易出现目标标注在边界位置的情况，如下图所示：

经过裁剪的DOTA图像目标所属网格很容易出现在图像的边界位置

这个BUG属于yolov5源码build_targets函数生成anchor索引时考虑不周全导致的，解决办法也很简单，在生成的索引处加上数值范围限制（坏处就是可能出现网格重复利用的情况，比较浪费）：

general.py文件中的build_targets函数中的bug位置修改

2021.04.25更新：

重复利用就重复利用呗（~破罐破摔！~），本来yolov5的跨网格正负样本标记方式就会产生同一个anchor与不同gt进行loss计算的问题，这个地方感觉还有很多地方可以优化，但就是想不明白这样子回归明明会产生二义性问题为什么效果还是很好？

之后的改建部分也比较机械，在compute_loss函数和build_targets函数中添加θ角度信息的处理即可，主要注意数据索引的代码块就可以，由于添加了‘θ’ 180个通道，所以函数中所有的索引部分都要更改。

更改索引部分（以类别损失代码块为例）

补充：

今天（2021年3月21日）我又去yolov5的issues上看了看，似乎20年11月份修复了这个问题。我这个是基于20年10月11日的代码改建的，要是晚下载几天就好了，兴许能避开这个坑。

又看了下新的yolov5源码，很多地方大换血...... 改建的速度还没人家更新的速度快。

（2）计算损失

class分类损失：

无需更改，注意数据索引部分即可。

θ角度分类损失：

由于我们添加的θ是分类任务，照葫芦画瓢，添加分类损失就可以了，值得注意的是θ部分的损失我们有两种方案：

一种就是正常的分类损失，同类别损失一样：BCEWithLogitsLoss；
先将GT的θ label经CSL处理后，再计算类别损失：BCEWithLogitsLoss。

项目代码中同时实现了两种方案，由csl_label_flag进行控制，csl_label_flag为True则进行CSL处理，否则计算正常分类损失，方便大家查看CSL在自己数据集上的提升效果：

θ角度分类损失的两种方案

bbox边框回归损失：

yolov5源码中边框损失函数采用的是IOU/GIOU/CIOU/DIOU，适用于水平矩形边框之间计算IOU，原本是不适用于旋转框之间计算IOU的。由于框会旋转等原因，计算两个旋转框之间的IOU公式通常都不可导，如果θ为回归任务，势必要通过旋转IOU损失函数进行反向传播从而调整自身参数，大多数旋转检测器的处理办法都是将不可导的旋转IOU损失函数进行近似，使得网络可以正常进行训练。

不过因为我们将θ视为分类任务来处理，相当于将角度信息与边框参数信息解耦，所以旋转框的损失计算部分也分为角度损失和水平边框损失两个部分，因此源码部分可以不进行改动，边框回归损失部分依旧采用IOU/GIOU/CIOU/DIOU损失函数。

置信度损失：

这一部分我们需要考虑清楚，yolov5源码是将GT水平边框与预测水平边框的IOU/GIOU/CIOU/DIOU值作为该预测框的置信度分支的权重系数，由于改建的情况特殊（水平边框+角度），我们有两种选择：

置信度分支的权重系数依然选择水平边框的之间的IOU/GIOU/CIOU/DIOU；
置信度分支的权重系数为旋转框IOU。

方案1相当于完全解耦预测角度与预测置信度之间的关联，置信度只与边框参数有关联，但事实上角度的一点偏差对旋转框IOU的影响是很大的，这种做法可能会影响网络最后对目标的score预测，导致部分明明角度预测错误但是边框参数预测正确的冗余框有过大的score，从而NMS无法滤除，最终影响检测精度。

2021.04.22更新：

方案1速度比方案2训练快很多，gpu利用率也更稳定，而且预测出来的框的置信度相比来说会更高，就是可能错检的情况会多一点（θloss收敛正常，置信度loss收敛正常的话该情况会得到明显缓解）

方案2除了错检情况少一点以外，其余都是缺点，大家可以自行对比尝试。不过缺点后期可以通过cuda加速来改善，毕竟DOTA_devkit提供的C++库计算效率确实不高。再加上代码不是自己写的，想直接套用别的旋转IoU代码就只能用时间效率贼低的for循环来做。

旋转IOU随角度偏移量的变化曲线

方案2自然是为了避免上述情况的产生，此外也是对将角度解耦出去的一种”补偿“。（至于网络能否学到这一层补偿那就不得而知，毕竟conf分支的权重系数不会通过反向传播的方式进行更新——detach的参数不会参与网络训练）

不会计算旋转IOU也没关系，DOTA数据集的作者额外提供了一个DOTA_devkit工具，里面有现成的C++库，我们直接调用即可。

通过计算预测框与GT框之间的旋转IOU来作为conf分支的权重系数

五、其他修改部分

数据加载器（图像预处理）--> BackBone(提取目标特征) --> Neck（收集组合目标特征） --> Head（预测部分） --> 损失函数部分

以上部分基本修改完毕，接下来就是可视化的部分，利用好Opencv的三个函数即可：

# rect = cv2.minAreaRect(poly)   # 得到poly最小外接矩形的（中心(x,y), (宽,高), 旋转角度）
# box = np.float32(cv2.boxPoints(rect))  # 返回最小外接矩形rect的四个点的坐标
# cv2.drawContours(image=img, contours=[poly], contourIdx=-1, color=color, thickness=2*tl)

大家可以参考我上传的项目代码，里面基本每段代码都会有我的注解（主要是当时自己刚开始看yolov5源码，每句话都有注释）。

训练：一个batch的图像数据可视化

检测：预测结果可视化

若目标数量太多，可以选择不显示label（label=None）

改建部分完结撒花，欢迎讨论！

本文仅做学术分享，如有侵权，请联系删文。

干货下载与学习

后台回复：巴塞罗那自治大学课件，即可下载国外大学沉淀数年3D Vison精品课件

后台回复：计算机视觉书籍，即可下载3D视觉领域经典书籍pdf

后台回复：3D视觉课程，即可学习3D视觉领域精品课程

计算机视觉工坊精品课程官网：3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进4.国内首个面向工业级实战的点云处理课程5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼）

13.重磅！四旋翼飞行器：算法与实战

14.ROS2从入门到精通：理论与实战

15.国内首个3D缺陷检测教程：理论、源码与实战

重磅！计算机视觉工坊-学习交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

资讯详情

YOLOv5在无人机/遥感场景下做旋转目标检测时进行的适应性改建详解（踩坑记录）...

正文：

一、数据加载部分

二、Backbone部分、Neck部分

三、Head部分

四、损失函数部分

（1）计算损失前的准备工作

补充：

（2）计算损失

2021.04.22更新：

五、其他修改部分

详细介绍电流互感器功能区别3CT SR ZCT

YOLOv5在无人机/遥感场景下做旋转目标检测时进行的适应性改建详解（踩坑记录）...

正文：

一、数据加载部分

二、Backbone部分、Neck部分

三、Head部分

四、损失函数部分

（1）计算损失前的准备工作

补充：

（2）计算损失

2021.04.22更新：

五、其他修改部分

详细介绍电流互感器功能区别3CT SR ZCT

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录