点击上方“3D视觉车间,选择星标
第一时间送达干货
文章导读
本文从停车场景的感知需求出发,探讨了算法之外的一些东西。内容有点琐碎。我们来谈谈停车感知的图像形式、感知水平的行泊一体化、相机选择中应注意哪些参数。
1
前情回顾
在最后一篇文章中,我们讨论了自动停车功能中停车位线识别的一些数据和算法,但从数据的角度来看,算法工程师需要使用相机模块收集真实场景的图像,而不是直接购买第三方或下载开源数据集进行培训。然后,从数据源开始,我们需要根据算法的输入形式和感知需求提出技术指标,并进行筛选Sensor甚至定制镜头模块。
2
停车感知的输入形式?
在目前L2~L在4方案中,摄像头通常部署在车辆周围一周,作为核心传感器,甚至可以有10多个摄像头来感知周围的环境。不同位置的摄像头也有不同的用途 周视相机常用于驾驶感知;鱼眼相机常用于360环视和停车感知;车内相机常用于驾驶员监控。
拉得有点远。回到主题,我们说的是停车时选择的摄像头。更常见的方法是使用四个鱼眼相机环视拼接,然后在鸟瞰图上进行停车位检测、障碍物检测等任务:如下图所示:
鸟瞰图的输入形式保留了地面线的几何特性,有利于停车位线的检测。但从上图可以看出,基于鸟瞰图的检测存在两个问题:
感知范围限于车身周围15米以内;
有高度的物体投影到鸟瞰图后形状扭曲;
另一种方法是使用每个鱼眼相机输出的原始视图进行独立的感知。当然,我们可以输入未进行畸变校正的数据使用校正后的数据作为输入。如下图所示:
从原始视图可以看出,车辆、树木等障碍物仍然保持着物体的真实特征,远处的物体可以从图像中看到;然而,鱼眼相机中的地面停车位线、车道线等标志不能保持直线等几何形状,这使得检测更加困难。
从以上两种图像的输入形式比较来看,基于拼接的鸟瞰图适合停车位线检测,基于原始视图适合障碍物检测,因此大多数停车感知倾向于分为两个网络来处理不同的任务。这种类似于松耦合的方案,将两个不同的任务放在不同的网络中独立操作,然后过滤和合并输出的感知结果。
3
如何减少传感器的数量?
由于传感器类型的不同,驾驶感知和停车感知通常是分开的。但从传感器简化的角度来看,行泊一体化将是未来的趋势,因此必然要考虑鱼眼和周视相机是否能统一。
假如把周视广角相机和环视鱼眼相机合二为一,下一步就是这些问题:
安装在哪里需要几个摄像头?
覆盖车身周围环境需要多少视角?
检测远、中、近物体需要多少分辨率?
高分辨率数据ISP算法压力是否可以处理?
...
传感器可以从硬件的角度定制,鱼眼超大FOV,周视相机相对较高PPD,能够兼顾80米甚至更远的障碍物。好奇的小伙伴肯定会问,焦距和视场角不是相互制约的吗?如下图所示:焦距越小,视场角越大。
然而,它无法阻止模块制造商强大的定制业务。只要有需求,就有市场。许多制造商在模块中集成前视多目摄像头进行感知。
从算法的角度来看,需要考虑将周视相机的物体检测等功能与环视拼接后的停车位线检测相结合,回到上一节提到的感知算法的图像输入形式。在功能方面,我们必须做高精度的事情。我们应该分开多个网络,履行自己的职责来完成任务。然而,如果我们能够统一输入形式,用一个模型和多个任务处理所有任务,这不仅简化了图像链路流程,而且重用了一些特征提取链接。小编认为这将是一种趋势,,因为如果将一个障碍物检测的任务放在鸟瞰图上进行,那么越远处的立体物体扭曲就会越大。如图所示,在方圆5米内的车辆已然变形,何况60米处的障碍物。
4
影响相机性能的参数有哪些?
算法工程师需要根据功能要求为供应商提供合适的技术要求Sensor还有镜头模块。所以我们必须了解几个最常见的参数:
说到摄像头,我们说的最多的是分辨率!一般来说,分辨率是图像的大小,通常使用图像水平方向的像素点 × 图像垂直方向的像素点数计算。例如,行业所说的标清分辨率是1280×720,也叫720P;高清分辨率为1920×1080,也叫1080P。
因此,图像的分辨率越高,包含的像素越多,图像看起来就越清晰。描述分辨率的单位如下:
dpi(点每英寸)
lpi(线每英寸)
ppi(像素每英寸)
ppd(像素每度)
其中ppd是算法工程师接触较多的指标,是指视角的平均值 1° 夹角填充的像素点数量如下图所示(图片来自网络):
人眼观察周围环境时的水平FOV是210°,垂直FOV是100°,当我们看手机时,一般距离是30~40cm,假设1°当它占据60个像素时,人眼无法区分像素粒度。VR消费电子行业流行的说法是60ppd图像称为视网膜分辨率。
那么像素粒度是什么感觉呢?看下图体验一下:
这是另一个常用的参数指标,通常是指摄像头在某种颜色空间的最大分辨率下可以支持的最高视频捕获能力。
对于人眼来说,一般运动场景可以达到15fps帧率已经是连续运动的效果;然而,在高速场景下,相机仍然需要满足感知算法30fps以上帧率。
为了提高帧率,我们将首先考虑是否可以缩小视角。如果没有,是否可以降低分辨率。在许多镜头中datasheet中会出现pixel binning mode。其实分辨率下采样模式有两种:
Binning Mode
Skipping Mode
Binning Mode相邻相同颜色单元的电荷加起来后输出信号。这种电荷合并可以提供暗处对光感应的灵敏度。如下图所示(将四种相同颜色的B合并成Bs,其他相似):
Skipping Mode删除相邻行列,起到隔行列抽样的作用。如下图所示:
指图像最亮、最暗部分的相对比值。当图像中同时存在于强光源照射下的高亮度区域和阴影、背光等相对亮度较低的区域时,由于曝光过度,相机输出的图像会出现明亮区域,而黑暗区域会因曝光不足而变黑,严重影响图像质量。Sensor内的HDR达到一定的DB之后,这种情况就可以缓解了。如下图所示:
还有很多重要的参数不一一列举,比如MTF:即调制传输函数来描述镜头的性能。
Distortion:物体通过光学系统后,实际上与理想的高度相差,离光轴越远,点畸变越大。
RI:即用于描述光学系统成像面平衡的相对照度。
SNR:即信噪比,用于描述成像的抗干扰能力。
感光部件:CCD或者CMOS两种;
滤片类型:RGGB、RCCB、RCCC等
前一篇文章简要介绍了这两个参数。
5
镜头定制原理
首先,考虑人们如何观察周围的事物。人的视力分为中心视力和周围视力:
中心视力敏锐,绝大多数视锥细胞集中在中心非常小的区域,负责颜色和细节的感知。只有在这个小区域,人们才能真正看到事物的细节和颜色,但他们需要在明亮的光线下工作;
周围视力相对不敏锐,主要是视杆细胞,负责探测弱光,暗视起主要作用。
在AI在该领域,摄像头一直被用作观察周围事物的眼睛,所以从仿生的角度来看,镜头也应该进行相应的定制设计。当然,有些学生会说,因为它是一个物理元件,你可以手动堆叠性能,保持视角不变,不断提高图像分辨率吗?
然后存在分辨率过高,会导致图像文件过大、传输缓慢、流量消耗、网络速度低等问题。高分辨率可能会大大降低传输和操作速度,这将是一个比提高几乎看不到差异的细节更严重的问题。
镜头的定制原则可以参考ADAS行业前视多目相机的目的通常是匹配一个HFOV~30°长焦远视摄像头,中距离HFOV~52°主摄像头,近距离HFOV~120°短焦广角摄像头。如果定制摄像头在不同角度分布不同数量的像素,上述三目摄像头是否可以统一!根据需要进行测试PPD吧!
本文仅进行学术分享。如有侵权行为,请联系删除。
在「3D视觉工坊」微信官方账号后台回复:
在「3D视觉工坊」公众号后台回复:即可下载包括等。
在「3D视觉工坊」公众号后台回复:即可下载独家学习课件与视频网址;后台回复:即可下载独家学习课件与视频网址。
扫码添加小助手微信,可
也可申请加入我们的细分方向交流群,目前主要有、、、、、等微信群。
一定要备注:
▲长按加微信群或投稿
▲长按关注公众号
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题