点击上方“3D视觉车间,选择星标
第一时间送达干货

作者丨happy
极市平台编辑
很少有工作transformer用于图像恢复方向,ETH学者最近提出了基础Swin Transformer强基线模型SwinIR用于图像恢复,在经典图像、真实场景图像、图像降噪和JPEG压缩伪影的去除明显优于现有方案。
https://arxiv.org/abs/2108.10257
https://github.com/JingyunLiang/SwinIR(未开源)
期待已久的SwinIR终于出版了,是的ETH团队在Transformer low-level华为诺亚提出的最新杰作大大超过了华为诺亚之前提出的最新杰作IPT。在某种程度上,这篇文章没有创新,只是微软Swin Transformer在low-level任务上进行了应用。Whatever,无论是经典图像超分(即退化)bicubic),或者真实场景图像超分,或者图像降噪和JPEG移除压缩伪影,。我在这里特别期待SwinIR期待作者尽快开源真实场景图像超分的应用和效果。
摘要
图像恢复(存在已久的)low-level视觉问题)旨在根据低质量图像(如下采样、带噪音、压缩图像)恢复高质量图像。现有优秀的图像恢复方案经常使用CNN,鲜少有Transformer(已在high-level在这类问题中探索和尝试视觉任务中取得显著成绩的方案。
本文基于Swin Transformer提出强基线模型SwinIR用于图像恢复。SwinIR包括三部分:、以及。具体来说,深层特征是从多个方面提取的RSTB(Residual Swin Transformer Blocks)构成,每个RSTB由多个Swin Transformer层与残差连接构成。
相比CNN方案,Swin具有以下优点:
基于内容交互的图像内容和注意力值可视为空域可变卷积;
RSTB中间移位窗机制可长距离依赖建模;
性能更好,参数更少(见下图:SwinIR参数少,性能好)。
我们有三个具有代表性的任务(图像超分、图像降噪和JPEG在压缩伪影移除上进行了实验。实验结果表明:。
方法简介
网络结构
本文提到了上图SwinIR显然,网络架构示意图由浅层特征提取、深层特征提取和高质量图像重建模块三部分组成。对于不同的任务,方案的区别主要在于重建模块。
给定低质量输入 ,我们采用 卷积 提取浅层特征 :
已有研究[ConvStem]表明: 。此外,卷积还提供了一种将输入图像映射到更高维特征空间的简单方案。然后,我们对 提取深层特征 :
注: 表示深层特征提取模块,它由K个RSTB与一个 卷积构成。更具体来说,中间特征 以及深层特征 的计算可以描述如下:
注:这里的卷积操作可以将卷积操作的归纳偏置引入到SwinIR中,同时为浅层特征与深层特征的聚合奠定更好的基础。
以图像超分为例,我们通过聚合浅层与深层特征进行高质量图像