视觉图像分割 Image Segmentation

时间序列 Informer 以前的时间信息/任务 LSTM RNN Transformer

图像分割：在原始图像中逐像素找到指定对象

对每个像素点进行分类(做分类任务)归属类别图像检测：框选预测坐标值分割任务：逐像素点分类任务对每一点进行分类例如：人、天、草、树四分类每种类型的概率，属于哪种类型的颜色显示

语义分割

每个像素都贴上标签，只区分类别，不区分类别中的具体单位(只分为大类和部分小类)

损失函数

惩罚-什么是对的，什么是错的衡量逐像素交叉熵-希望判断每个像素点考虑样本平衡

MIOU指标

IoU(Intersection over Union，交并比)

MIOU计算各类平均值，一般作为分割任务评估指标I/U I交集 U并集

U-Net

整体结构编码解码过程编码器：图像转特征解码器：获得输出结果的融合特性应用广泛，最初是医学方向比如输入图像有飞机、人、花、树四类，图像大小224×224×3 输出 224×224×4获得每个像素点的类别概率判断每一点的类别上采样:插值(近邻插值、线性插值、双线插值、双三次插值高阶插值) 特征拼接操作

U-Net

拼接、多监督(损失函数增加在不同位置) 特征融合，拼接更全面与densenet思想一致升级版本，可以拼凑所有功能 Deep Supervision 多输出损失由多个位置计算，然后更新多个中间位置增加损失函数细胞数据，标签 [4, 3, 96, 96]一次训练四张图，RGB通道数为3，高96，宽96

实例分割

不仅要区分类别，还要区分类别中的每个个体(即大类和小类)

行为识别

具体内容

针对视频按帧切为序列，每块100帧每25帧取一次环境特征，共4张每2帧提取50张采动动作特征 3D卷积-特征-汇总分类任务-哪个类别？判断人在做什么，做什么是类别中的一件事当前人的动作、环境

slowfast——动作fast、环境slow

一般行为识别框架(facebook)，预测高频和低频特征的直接集成特征

基本思想：

动作在变，环境不变
如何获取动作信息
如何获取环境信息
如何融合

核心网络结构

获取高频和低频图像数据
特征提取分别进行
特征融合
预测

目标检测 Object Detection

内容

图像检测：框选预测坐标值定位，找到目标的位置

应用领域

DETR（Detection Transformer）目标检测、框选-边界特征重要

YOLO

optimal speed and accuracy of object Detection 本质思想:收集百家之长，简化百家速度块，精度低贡献：

单GPU训练很好，很多小模块都是以此为出发点
两个核心:从数据层面和网络设计层面进行改进
工作量大的消融实验
所有的实验都是单一的GPU训练

Bag of freebies(BOF)

只增加训练成本，但能显著提高精度，不影响推理速度
数据增强：调整亮度、对比度、色调、随机缩放、剪切、翻转、旋转
网络正则化的方法：Dropout、Dropblock等
类别不平衡，损失函数设计

Mosaic data augmentation 马赛克数据增强

参考CutMix，四张图像拼接成一个训练
简介增加batch
难点:确定中心点、拼接、标签转换

数据增强

Random Erase：用随机值或训练集的平均像素值替换图像的区域
Hide and Seek：根据概率设置随机隐藏一些补丁
Self-adversarial-training(SAT):通过引入噪声点来增加游戏难度
Dropout 在训练过程中，可以随机识别一些特征
DropBlockDropout是随机选择点(b)，现在隐藏多个区域

算法：快速理解-看源码Label Smoothing标签平滑

神经网络最大的缺点:过拟合(训练好)
例如，原标签是(0， 1)：[0,1]×(1-0.1) 0.1/2=[0.05,0.95]

BOS（Bag of specials）

增加稍许推断代价，但可以提高模型精度的方法
网络细节部分加入很多改进，引入了各种能让特征提取更好的方法
注意力机制，网络细节设置，特征金字塔等

目标检测回归损失函数

参考：目标检测回归损失函数——IOU、GIOU、DIOU、CIOU、EIOU - 知乎

IOU Loss：没有相交则IOU=0无法梯度计算，相同的IOU却反映不出实际情况

GIOU Loss：引入了最小封闭形状C（C可以把A, B包含在内）

针对IOU Loss缺点：

无法优化两个框不相交的情况
无法反映两个框如何相交的

引入了最小封闭形状C（C可以把A，B包含在内），在不重叠情况下能让预测框尽可能朝着真实框前进

存在问题：

GIOU仍然严重依赖IOU，因此在两个垂直方向，误差很大，基本很难收敛，这就是GIoU不稳定的原因。

DIOU Loss

DIOU与IOU、GIOU一样具有尺度不变性;
DIOU与GIOU一样在与目标框不重叠时，仍然可以为边界框提供移动方向；
DIOU可以直接最小化两个目标框的距离，因此比GIOU Loss收敛快得多；
DIOU在包含两个框水平/垂直方向上的情况回归很快，而GIOU几乎退化为IOU；

其中分子计算预测框与真实框的中心点欧式距离d，分母是能覆盖预测框与真实框的最小Box的对角线长度c，直接优化距离，速度更快，并解决GIOU的问题

存在问题：

虽然DIOU能够直接最小化预测框和真实框的中心点距离加速收敛，但是Bounding box的回归还有一个重要的因素纵横比暂未考虑。

CIOU Loss

CIOU在DIOU的基础上将Bounding box的纵横比考虑进损失函数中，进一步提升了回归精度。

CIOU的惩罚项是在DIOU的惩罚项基础上加了一个影响因子αv，这个因子把预测框纵横比拟合真实框的纵横比考虑进去。惩罚项公式如下：

损失函数必须考虑三个几何因素：重叠面积、中心点距离、长宽比

其中α可以当作权重参数

存在问题：

纵横比权重的设计还不太明白，是否有更好的设计方式有待更新。

ELOU Loss

CIOU Loss虽然考虑了边界框回归的重叠面积、中心点距离、纵横比。但是通过其公式中的v反映的纵横比的差异，而不是宽高分别与其置信度的真实差异，所以有时会阻碍模型有效的优化相似性。针对这一问题，有学者在CIOU的基础上将纵横比拆开，提出了EIOU Loss，并且加入Focal聚焦优质的锚框

存在问题：

针对边界框回归任务，在之前基于CIOU损失的基础上提出了两个优化方法：

将纵横比的损失项拆分成预测的宽高分别与最小外接框宽高的差值，加速了收敛提高了回归精度；
引入了Focal Loss优化了边界框回归任务中的样本不平衡问题，即减少与目标框重叠较少的大量锚框对BBox 回归的优化贡献，使回归过程专注于高质量锚框。

不足之处或许在于Focal的表达形式是否有待改进。

DIOU-NMS损失

之前使用NMS来决定是否删除一个框，现在改用DIOU-NMS

SOFT-NMS

目标检测网络结构

SPPNet（Spatial Pyramid Pooling）三个不同池化层，结果拼接特征多样性（每条路径将自己的特征提取好后汇总）

V3中为了更好满足不同输入大小，训练的时候要改变输入数据的大小
SPP其实就是用最大池化来满足最终输入特征一致即可

CSPNet（Cross Stage Partial Network）保留一半，剩下一半进行卷积；每一个block按照特征图的channel维度拆分成两部分

一份正常走网络，另一份直接concat到这个block的输出

CBAM 加入注意力机制某些点权重较大算出来的权重乘上当前点的特征得到实际的特征 V4中用SAM，空间注意力机制

空间注意力机制速度相对更快 SAM

PAN(Path Aggregation Network) 自顶向下模式，将高层特征传下来

注意力机制：关注边界多或中心多；高度遮蔽、重叠

超分辨率 Super Resolution

基于深度学习的图像超分辨率重建

将低分辨率图像——>高分辨率图像

Deep Learning for Image Super-resolution: A Survey

基于插值的技术
最近邻元法
双线性内插法
三次内插法

基于重建的方法

概率论/集合论

凸集投影法(POCS)
贝叶斯分析方法
迭代反投影法(IBP)
后验概率方法
正规化法
混合方法

基于机器学习的方法(非深度学习)

Example-based方法
领域嵌入方法
支持向量回归方法
稀疏表示法

监督学习的问题

原图 → 缩小 → 缩小图 → 通过模型重建 → 重建图 → 对比后调整模型 → 原图 I^y=F(Ix;θ) Ix低清图像 Iy超分图像 F超分模型 θ模型中参数模型的学习目标 θ=argminθL(I^y, Iy)+λΦ(θ) L损失函数 Φ(θ)为正则项 λ为惩罚系数

图像处理

获得低分辨率图像

Ix=D(Iy;δ) D表示降级映射 δ为模型中参数降级模型——简单下采样 Ix=(Iy)⬇s s表示下采样的倍数、加入模糊与噪声的下采样Ix=(Iy卷积k)⬇s+n k为卷积核,n为噪声影响图像因素：散焦、压缩失真、噪点、传感器噪声

评价超分图像的质量

客观：峰值信噪比、结构相似度
- 结构相似度：亮度Luminance+对比度Contrast+结构Structure(均值、方差、相关性)
主观：意见平均分

超分网络的结构分类

1、预上采样：低尺寸--upsample--目标尺寸--经过一系列卷积--输出图像

SRCNN 无需考虑输入图像和输出图像尺寸不匹配问题缺点：在高维中计算，增加计算复杂度；产生虚假纹理，干扰训练

2、后上采样

低尺寸图像--经过一系列卷积--upsample--输出图像降低计算复杂缺点：过多信息缺失，不能适应不同放大倍数

3、逐步上采样低尺寸图像--多个模块(每个模块包含：一系列卷积和upsample)--输出图像降低学习难度，兼容放大倍数缺点：训练难度较高

4、交替式上下采样挖掘低清晰和高清晰图像的依赖关系低尺寸图像--卷积--upsample downsample--......--upsample--输出图像

资讯详情

PyTorch深度学习（28）视觉图像分割、检测、超分

视觉图像分割 Image Segmentation

语义分割

损失函数

MIOU指标

U-Net

U-Net

实例分割

行为识别

具体内容

slowfast——动作fast、环境slow

目标检测 Object Detection

内容

应用领域

YOLO

目标检测回归损失函数

目标检测网络结构

超分辨率 Super Resolution

基于深度学习的图像超分辨率重建

Deep Learning for Image Super-resolution: A Survey

基于重建的方法

基于机器学习的方法(非深度学习)

监督学习的问题

图像处理

评价超分图像的质量

超分网络的结构分类

各种深度学习模型应用于SR

其他

图像复原 Image Restoration

图像增强 Image Enhancement

图像重建 Image Reconstruction

三维重建 3D Reconstruction

无人驾驶：点云 Point Cloud

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

PyTorch深度学习（28）视觉图像分割、检测、超分

视觉图像分割 Image Segmentation

语义分割

损失函数

MIOU指标

U-Net

U-Net

实例分割

行为识别

具体内容

slowfast——动作fast、环境slow

目标检测 Object Detection

内容

应用领域

YOLO

目标检测回归损失函数

目标检测网络结构

超分辨率 Super Resolution

基于深度学习的图像超分辨率重建

Deep Learning for Image Super-resolution: A Survey

基于重建的方法

基于机器学习的方法(非深度学习)

监督学习的问题

图像处理

评价超分图像的质量

超分网络的结构分类

各种深度学习模型应用于SR

其他

图像复原 Image Restoration

图像增强 Image Enhancement

图像重建 Image Reconstruction

三维重建 3D Reconstruction

无人驾驶：点云 Point Cloud

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录