图像检测：目标检测（下）-锐单电子商城

R-FCN

R-CNN系列的结构

以旧形态为基础CNN的结构（AlexNet,VGG） :全卷积子网络，全连接子网络
相应的结构设计：全卷积子网络(5层/组)独立于ROI，计算共享；ROI-wise子网络(3层)计算不能共享。

CNN基于结构设计的全卷积化形式(只剩下一个全连接层)R-CNN会出现问题

结构：ROI-wise子网相当于隐含层

性能：检测性能与分类性能不一致

应用两难：检测网络变换的敏感性，分类网络变换的不变性，卷积层越深，不变性越强，对变换不敏感。

不适应设计：ResNet101->Conv91 ROI池化 Conv10.精度提高，但速度下降

适应全卷积化CNN提出全卷积设计

共享ResNet所有卷积层

引入变换敏感性：(1)位置敏感分值图：特殊设计的卷积层，Grid位置信息类别分数。(2)位置敏感池化:无训练参数，无全连接网络的类别判断。

R-FCN的结构

R-FCN敏感卷积层的位置使用kk(C 1)通道编码(位置、类别)组合

类别：C个物体类 1个背景类
相对位置：k*k个Grid(k=3)
位置敏感分值图：每个分类k*k个score map,score map尺寸=图片尺寸

R-FCN的位置敏感ROI池化层显式地编码相对位置信息

将wh尺寸的ROI拆分成kk个（w/k）* (h/k)尺寸的bin
不同颜色bin对应不同颜色的通道层（score map）
Bin均值池内化
输出尺寸kk(C 1)

R-FCN的Score map可视化

R-FCN多任务损失函数

R-FCN的训练

OHEM（Online Hard Example Mining） :首先对RPN获得的候选ROI(正负样本分别排序)进行排序操作；然后包含正样本(目标)ROI选择前NROI，将正负样本的比例保持在1:3的范围内，以确保每个样本都包含一定的正样本，从而提高网络的分类能力。
Faster R-CNN的4步训练法：RPN和R-FCN交替训练

YOLO v1

YOLO以物体检测任务为例regression处理问题，通过YOLO，图像中有哪些物体和这些物体的位置只需看一眼就能得到。将图像resize到448*448作为神经网络的输入，使用神经网络直接从整个图像bbox的坐标，box它包含物体的信心和可能性，然后进行非极大的抑制和筛选Boxes。

首先利用ImageNet 1000-class分类任务数据集Pretrain卷积层。使用上述网络的前20个卷积层，加上一个average-pooling layer，最后加一个全连接层，作为Pretrain的网络。

将Pretrain前20层卷积层应用于结果Detection其余4个卷积层和2个全连接。

同时，为了获得更精细的结果，输入图像的分辨率为224224提升到448448。

将所有预测结果归一化为0~1,使用LeakyRELU作为激活函数。

为防止过拟合，在第一个全连接层后面连接了一个ratio=0.5 的 Dropout层。

YOLO网络结构由24卷积层和2个全连接层组成，网络入口为448x图片首先通过网络进入网络resize网络的输出结果是一量。YOLO网络结构由24卷积层和2个全连接层组成，网络入口为448x图片首先通过网络进入网络resize网络的输出结果是一量。输出维度为：S* S*(B5 C), 在 Pascal VoC上，预测结果维度为77*(2*5 20)。其中，S划分网格数，B负责每个网格的目标数，C类别数。

**将图像分成SxS个网格(grid cell),如图所示。右图中物体狗的中心点(红色原点)落入第5行和第2列网格，因此网格负责预测图像中的狗。每个格栅预测B(B=2）个bboxes,以及这些bboxes的confidence scores.confidence scores它反映了模型对格栅的预测：格栅是否含有物体，以及格栅是否含有物体box预测坐标有多准确。公式定义如下：

如果这个格栅不存在，如果它不存在object，则confidence score应为0；否则，confidence score则为predicted bounding box与 groundtruth box之间的IOU ( intersection over union) 。**

YOLO v1:每个栅栏有两个bbox。对每个bbox5个预测值，x,y,w,h,confidence。每行前10个元素作为预测结果。

每个格栅还应预测C条件类别的概率(conditional class probability):Pr(Class,/Object)。即在一个网格中包含一个Object它属于某一类的概率

条件类别概率：针对每个格栅。 Confidence：是针对每个bbox的。

在测试阶段，每个格栅的条件类别概率和bbox的confidence相乘:

NMS（非极大值抑制）：首先从所有的测试框中找到最可信的框，然后逐一计算其与剩余框的框IOU，如果其值大于一定阈值（重叠度过高），则删除该框；然后将上述过程重复到剩余的检测框，直到所有检测框完成。

Yolo实际策略是先用NMS，然后确定每一个box类别的基本过程如图所示：98boxes，首先将小于置信度阈值的值归0，然后对置信度值进行分类NMS。这里NMS结果不是消除，而是将其可信度值归为0。最后，确定每个项目box当其置信度不为0时，输出检测结果。

YOLO v1的优点：

快速检测物体

假阳性率低

学习更抽象物体的特征

YOLO v1的不足：

YOLO物体检测精度低于其他物体state-of-the-art物体检测系统

YOLO容易产生物体定位错误

YOLO由于一个网格智能检测两个物体，对小物体的检测效果不好，尤其是密集的小物体。

Batch Normalization :Batch Normalization可提高模型收敛速度，减少过拟合。应用于所有卷积层BN，结果增加了2%。 High Resolution Classifier : 基于ImageNet数据集预训练模型的输入图像大多小于256×256。在YOLOv首先，448×448分辨率的 ImageNet数据fine tune使网络适应高分辨率输入，然后将网络用于目标检测任务finetune。高分辨率输入使结果提高了4%mAP。 Convolution With Anchor Boxes :本版借鉴Faster R-CNN中的anchor思想，用anchor boxes来预测bounding boxes。精度只有小幅下降，召回率提高了7%

Dimension Clusters :使用了K-means聚类方法训练bounding boxes，可以自动找到更好的boxes宽高维度。

Direct location predictin : 在YOLO模型上采用anchor boxes的是模型不稳定性，大部分不稳定因素来源于预测boxes位置(x，y) 。将预测偏移量改变为YOLO的预测grid cell的位置匹配性(location coordinate ），将预测值限定在0-1范围内，增强稳定性。

Fine-Grained Features :改进后的YOLO对13×13的feature map进行目标检测。更精确的特征(finer grained features）可以提高对于小目标的检测。加入passtrough层以增加特征。passthrough类似于ResNet，将高分辨率特征和低分辨率特征结合，使26×26×512的特征图转化为13×13×2048的特征图。该改进增加了1%的性能。

Multi-Scale Training :模型只包含卷积层和pooling层，因此可以随时改变输入尺寸。每经过10次训练，就会随机选择新的图片尺寸进行训练。

YOLO v2的基础模型是Darknet-19，其结构如表所示。

使用较多的3*3卷积核，在每一次池化操作后把通道数翻1首。

网络使用了全局平均池化，把11的卷积核置于33的卷积核之间，用来压缩特征。

也用了BN稳定模型训练。

YOLO v3

YOLO v3中使用了一个53层的卷积网络，这个网络由残差单元叠加而成。YOLO v3使用逻辑回归预测每个边界框的分数。为了实现多标签分类,模型不再使用softmax函数作为最终的分类器，而是使用binary。cross-entropy作为损失函数。

多尺度预测 :YOLO v3从三种不同尺度的特征图谱上进行预测任务在Darknet-53得到的特征图的基础上，经过7个卷积得到第一个特征图谱，在这个特征图谱上做第一次预测。然后从后向前获得倒数第3个卷积层的输出，进行一次卷积一次x2上采样，将上采样特征与第43个卷积特征连接，经过7个卷积得到第二个特征图谱，在这个特征图谱上做第二次预测。然后从后向前获得倒数第3个卷积层的输出，进行一次卷积一次x2上采样，将上采样特征与第26个卷积特征连接，经过7个卷积得到第三个特征图谱，在这个特征图谱上做第三次预测。

资讯详情

图像检测：目标检测（下）

R-FCN

R-CNN系列的结构

YOLO v1

YOLO v2

YOLO v3

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

图像检测：目标检测（下）

R-FCN

R-CNN系列的结构

YOLO v1

YOLO v2

YOLO v3

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录