资讯详情

Transformer在图像复原领域的降维打击!ETH提出SwinIR:各项任务全面领先

点击上方“3D视觉车间,选择星标

第一时间送达干货

作者丨happy

极市平台编辑

很少有工作transformer用于图像恢复方向,ETH学者最近提出了基础Swin Transformer强基线模型SwinIR用于图像恢复,在经典图像、真实场景图像、图像降噪和JPEG压缩伪影的去除明显优于现有方案。

https://arxiv.org/abs/2108.10257

https://github.com/JingyunLiang/SwinIR(未开源)

期待已久的SwinIR终于出版了,是的ETH团队在Transformer low-level华为诺亚提出的最新杰作大大超过了华为诺亚之前提出的最新杰作IPT。在某种程度上,这篇文章没有创新,只是微软Swin Transformer在low-level任务上进行了应用。Whatever,无论是经典图像超分(即退化)bicubic),或者真实场景图像超分,或者图像降噪和JPEG移除压缩伪影,。我在这里特别期待SwinIR期待作者尽快开源真实场景图像超分的应用和效果。

摘要

图像恢复(存在已久的)low-level视觉问题)旨在根据低质量图像(如下采样、带噪音、压缩图像)恢复高质量图像。现有优秀的图像恢复方案经常使用CNN,鲜少有Transformer(已在high-level在这类问题中探索和尝试视觉任务中取得显著成绩的方案。

本文基于Swin Transformer提出强基线模型SwinIR用于图像恢复。SwinIR包括三部分:以及。具体来说,深层特征是从多个方面提取的RSTB(Residual Swin Transformer Blocks)构成,每个RSTB由多个Swin Transformer层与残差连接构成。

相比CNN方案,Swin具有以下优点:

  • 基于内容交互的图像内容和注意力值可视为空域可变卷积;

  • RSTB中间移位窗机制可长距离依赖建模;

  • 性能更好,参数更少(见下图:SwinIR参数少,性能好)。

我们有三个具有代表性的任务(图像超分、图像降噪和JPEG在压缩伪影移除上进行了实验。实验结果表明:

方法简介

网络结构

本文提到了上图SwinIR显然,网络架构示意图由浅层特征提取、深层特征提取和高质量图像重建模块三部分组成。对于不同的任务,方案的区别主要在于重建模块。

给定低质量输入 ,我们采用 卷积 提取浅层特征 :

已有研究[ConvStem]表明: 。此外,卷积还提供了一种将输入图像映射到更高维特征空间的简单方案。然后,我们对 提取深层特征

注: 表示深层特征提取模块,它由K个RSTB与一个 卷积构成。更具体来说,中间特征 以及深层特征 的计算可以描述如下:

注:这里的卷积操作可以将卷积操作的归纳偏置引入到SwinIR中,同时为浅层特征与深层特征的聚合奠定更好的基础。

以图像超分为例,我们通过聚合浅层与深层特征进行高质量图像 标签: eth传感器1143

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

 锐单商城 - 一站式电子元器件采购平台  

 深圳锐单电子有限公司