资讯详情

CVPR 2022&NTIRE 2022|首个用于高光谱图像重建的 Transformer

作者丨phantom@知乎(已授权)

来源丨https://zhuanlan.zhihu.com/p/501101943

极市平台编辑

本文介绍了我们最近的两篇文章 MST 与 MST ,其中MST已被 CVPR 2022 接收,MST 被 CVPRW 2022 接收,并在 NTIRE 2022 Spectral Reconstruction Challlenge 获得第一名。

91c5236aab3bffd230d5b83c24438fb6.png
图1 MST 与 MST 与 SOTA 算法对比图。横轴代表计算量,纵轴代表性能,圆半径代表参数。

先验货,MST 与 MST 与 SOTA 如图1所示,非轴为计算量,纵轴为性能,圆半径代表参数。MST 与 MST 高光谱图像重建占据左上角,参数也很小。

文章一:《Mask-guided Spectral-wise Transformer for Efficient Hyperspectral Image Reconstruction》

paper:https://arxiv.org/abs/2111.07910

code:https://github.com/caiyuanhao1998/MST

文章二:《MST : Multi-stage Spectral-wise Transformer for Efficient Spectral Reconstruction》

paper:https://arxiv.org/abs/2204.07908

code:https://github.com/caiyuanhao1998/MST-plus-plus

1. 高光谱图像简介

高光谱图像(Hyperspectral Image, HSI)指光谱分辨率λ光谱图像在数量级范围内。与常规相比RGB在图像方面,高光谱图像有更多的波段(即通道数更多,如31、28)来更准确、全面地描述被捕场景的特征。很多时候,从RGB异常不能在图像中观察到,但问题可以从高光谱图像的某个波段目了然。这可能不容易理解。例如,在深夜,如果你直接看RGB图像可能是黑暗的,但如果你通过红外夜视,你可以清楚地看到发热的活物。红外夜视仪捕获红外光谱图像。也正因为光谱图像有着这样的特性,它被广泛地应用于目标检测与追踪,图像识别,遥感,医疗影像等领域。

图2 例如高光谱图像的应用场景

那么,既然高光谱图像如此有用,我们应该如何获得它呢?传统的成像设备采用光谱仪扫描成像场景的空间域通道维度,费时费力,不适合运动场景。近年来,科学家们专门设计了快照压缩成像(Snapshot Compressive Imaging,SCI)解决这个问题的系统。在诸多SCI在系统中,编码孔径快照光谱成像(Coded Aperture Snapshot Spectral Imaging)该系统脱颖而出,成为捕获光谱图像的重要手段,其结构如图2所示

图3 编码孔径快照光谱成像系统

CASSI系统首先通过编码孔径掩膜调制成像场景的光谱通道,然后通过三棱镜分散,在相机上生成二维快照估计图(compressive measurement)。那么有一种获取高光谱图像的方法就是用CASSI结合从measurement到HSI我们把这种方法记录为恢复算法SCI-to-HSI。

这个方法好吗?好,但还不够好。为什么?CASSI设备很贵,价格在 10,000 到 100,000 美金。不过它有一个优势就是,存储的时候只需要存储二维的measurement,这可以大大降低数据存储和传输的成本。

然后,聪明的朋友可能会发现,因为本质上RGB和HSI它们都是同一场景中不同光谱通道的成像,因为深度学习模型,如 CNN,Transformer 无所不能,那我为什么不直接学一个呢? RGB 到 HSI 的映射呢?RGB 到处都是相机,RGB 到处都是图像,RGB-to-HSI 如果映射学得好,不就是点石成金吗?你想要什么?为什么要破费买?CASSI系统?没有中间商赚我几万美元的差价,简直就是零糖零卡零负担。正是基于 RGB-to-HSI 的构想,NTIRE 举办了 Spectral Reconstruction Challenge 并提供相应的数据集。

我们工作 MST 与 MST 就分别针对 SCI-to-HSI 与 RGB-to-HSI 历史上第一个用于高光谱图像重建的设计 Transformer。

2. 高光谱图像恢复算法

2.1 MST 用于 SCI-to-HSI 高光谱图像恢复

针对从 2D measurement 到 3D HSI cube 我们提出了光谱图像恢复 Mask-guided Spectral-wise Transformer (MST),如图3 (a) 所示。MST是对称的 U 形状网络的基本组成单元是 Mask-guided Self-Attention Block (MSAB), 如图3 (b) 所示。MSAB 最重要的是 Mask-guided Spectral-wise Multi-head Self-Attention (MS-MSA)。MSAB 包含两个 Layer Normalization (LN),一个 MS-MSA 前向神经网络 Feed Forward Network (FFN),如图3 (c) 所示。

图4 MST结构示意图

其中的 MS-MSA 可分为两部分,即 Mask-guided Mechanism (MM) 和 Spectral-wise Multi-head Sefl-Attention (S-MSA)。为了避免大家觉得无聊,这里就不给大家看琐碎的公式了。下面我就用语言大致介绍一下,相关细节请参考原文。MS-MSA如图5所示

图5 MS-MSA结构示意图

:其中,S-MSA如图5所示 (c1) 所示。一般来说,以前的Transformer将一个 pixel vector 作为一个token。然而,高光谱具有空间稀疏、通道高度相似的特点,因此计算空间维度 self-attention 它将比计算光谱通道维度更大 self-attention 更加低效。基于这样一个motivation,S-MSA 将每个光谱通道的特征图作为一个特征图 token 去计算 self-attention。

:在 CASSI 在成像过程中,我们注意到编码孔径掩膜(mask)用于调制 mask 不同位置的透光率导致生成 measurement 上的各个位置的保真度不同。因此,为了获得随空间位置变化的保真信息,我们将 mask 作为输入生成 Mask Attention Map,然后作用在 S-MSA 的value上,如图5 (c2) 所示。

通过改变 MST 中各层 block 的数量 (,,)来得到一簇 MST family,他们是 MST-S (2, 2, 2), MST-M (2, 4, 4), MST-L (4, 7, 5)。

在 KAIST 数据集的效果如表1所示 所示参数-计算量-性能比较如表2 可以看到,我们的MST采用较少的参数量和计算量,取得了较好的效果。如图1所示 所示。MST 占左上角。

表1 MST 与 SOTA 方法在 KASIT 内比较数据集上的性能
表2 MST 与 部分开源 SOTA 性能-参数-计算量对比

定性比较:在 simulation 和 real 数据上的定性对比分别如图6和图7所示。MST从光谱曲线的角度来看,恢复更多的光谱细节也取得了更高的效果 consistency, 这也证实了我们方法的优势。

图6 MST 与 SOTA 方法在 simulation 数据上的定性对比图
图7 MST 与 SOTA 方法在 real 数据上的定性对比图

2.2 MST 用于 RGB-to-HSI 高光谱图像恢复

MST 是 MST 后续工作全称为 Multi-stage Spectral-wise Transformer。顾名思义,这很容易理解,就是会MST 的 MM 删除,然后转换为多阶段网络的首尾串联。输入变成 RGB 图像,输出还是 HSI。如图8所示。

图8 MST 算法结构示意图

MST 与其他 SOTA 方法在 NTIRE 2022 的 validation 和 test 如表3所示,数据集中的对比。我们的MST 计算量和参数仍然较少,性能指标较高,同时获得 NTIRE 2022 Challenge on Spectral Reconstruction from RGB 的冠军。

表3 MST++ 与 SOTA 方法在 NTIRE 2022 的 validation 和 test 数据集上的性能对比

 MST++ 与 SOTA 方法在 NTIRE 2022 的 validation 数据集上的定性对比如图9和图10所示。

图9 MST++ 与 SOTA 方法在 NTIRE 2022 的 validation 数据集上的定性对比
图10 MST++ 与 SOTA 方法在 NTIRE 2022 的 validation 数据集上的定性对比

目前为止,从 RGB 到 HSI 图像复原的研究缺乏一个好用的 baseline,我们将我们的方法连同 10 个 SOTA 复原算法,预训练模型,都开源在了MST++(https://github.com/caiyuanhao1998/MST-plus-plus),希望推动这个方向的发展。

3. 小结

针对从快照压缩估计图(measurement)和从常规图像(RGB)重建出高光谱图像,我们分别提出了领域内第一个基于Transformer的方法,MST 与 MST++,以更少的参数量,更低的计算量取得了更高的性能。同时,我们的MST++ 还取得了 NTIRE 2022 Challenge on Spectral Reconstruction 的第一名。

本文仅做学术分享,如有侵权,请联系删文。

后台回复:即可下载国外大学沉淀数年3D Vison精品课件

后台回复:即可下载3D视觉领域经典书籍pdf

后台回复:即可学习3D视觉领域精品课程

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进4.国内首个面向工业级实战的点云处理课程5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

15.国内首个3D缺陷检测教程:理论、源码与实战

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在

也可申请加入我们的细分方向交流群,目前主要有等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。也请联系。

▲长按加微信群或投稿

▲长按关注公众号

:针对3D视觉领域的五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

标签: 2204传感器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台