基于深度学习的多模态医学图像配置
参考文献
- Unsupervised Multi-Modal Medical Image Registration via Discriminator-Free Image-to-Image Translation. IJCAI, 2022
Abstrct
在临床实践中,对齐磁共振等良好的多模态图像(Magnetic Resonance,MR)扫描计算机断层(Computed Tomography,CT),可为图像引导治疗提供补充信息。多模态图像配置对于整合这些图像信息至关重要。然而,由于不同模式之间复杂而未知的空间对应关系,这仍然是一项非常具有挑战性的任务。
Introduction
基于学习的准确性,通过最大化预定义的相似性,寻求直接从一对图像预测变形场 [Fan等人,2019]1。在训练阶段使用真实变形场或分割掩码可能会面临缺乏标记数据的问题 2。
即使对于专家来说,标记匹配数据也非常耗时和费力,因此提出了无监督方法来克服这一限制。神经网络只通过最大化目标图像和源图像之间的图像相似性来预测匹配变形场。
然而,无监督方法的性能在很大程度上取决于相似度的选择。常见的相似度量,如 MSE 和 NCC,非常适合单模态配准 [Balakrishnan等人,2019;de V os等人,2017],但在多模态环境中表现不佳。通常采用归一化互信息,无监督多模态配准方法(NMI)模态独立的邻域描述符(MIND)作为图像相似性。
然而,。
鉴于近期多模态图像转换的成功 [Huang等人3;Park等人4],另一种解决方案是使用图像到图像(image-to-image,I2I)转换框架将问题转换为更简单的单模态任务 [Qin等人5]。具体来说,基于转换方法的使用 GAN 将图像从源模态转换为目标模态。
但是,这个基础 GAN 图像转换往往会产生不一致的形状和额外的人工解剖特征,反过来会恶化配准性能 [Arar等人6;Xu等人7]。更具体地说,由于成像床的形状、扫描仪的成像协议和视觉,不同的模式有非常明显的几何差异。我们称这些差异为 特定于域的变形
[Wang等人8]。
我们认为,不一致性和伪影是由识别器引入的。识别器错误地将特定域的变形编码为不可或缺的外观特征,并鼓励生成器再现变形。这往往给配置任务带来不必要的困难。
Method
基于模态转换的匹配方法,我们学习了跨模态转换,即两种模态之间的映射,从而使用单模态度来训练匹配网络。源图像被变形场扭曲,与目标图像对齐。。并将像素损失设计为单模态度量。像素损失不仅可以测量转换网络的外观迁移效果,还可以测量不同程度的图像匹配,因此可以同时训练转换网络和匹配网络。
Loss Functions
我们的模型由两部分组成:。在我们的上下文中,像素损失 L a p p e a r a n c e L_{appearance} Lappearance 是在目标模态中计算的单模态度量。 1 在所示的结构中,我们增加了两个新的损失项 L l o c a l L_{local} Llocal 和 L g l o b a l L_{global} Lglobal,以实现 x ( ϕ ) x(\phi) x(ϕ) 和 y y y 之间的局部和全局对齐。
其中, L g l o b a l L_{global} Lglobal = L 1 -norm L_1\text{-norm} L1-norm = L appearance ( T , R ) = ∥ y ′ ( ϕ ) − y ∥ 1 \mathcal{L}_{\text {appearance }}(T, R)=\left\|y^{\prime}(\phi)-y\right\|_{1} Lappearance (T,R)=∥y′(ϕ)−y∥1; L l o c a l = P a t c h N C E L_{local} = PatchNCE Llocal=PatchNCE; L s m o o t h = L 2 -nrom = ∑ u ∈ N ( v ) ∥ ϕ ( u ) − ϕ ( v ) ∥ 2 L_{smooth} = L_2\text{-nrom} = \sum_{u \in N(v)}\|\phi(u)-\phi(v)\|_{2} Lsmooth=L2-nrom=∑u∈N(v)∥ϕ(u)−ϕ(v)∥2,其中, N ( v ) N(v) N(v) 表示与像素 v = ( i , j ) v = (i, j) v=(i,j) 相邻的一组像素。
在预测时,只需要向配准网络中输入源图像和固定图像,就能得到合适的变形场用于配准。由于使用 I2I,都是把3D图像切片成2D才输入网络,因此预测的变形场是2D变形场。
我们的代码位于 heyblackC/DFMIR 。
Related Methods
弱监督学习
在弱监督训练方案下,只需要在训练阶段使用分割图。这类方法可以直接输入 3D 图像并得到结果。2 9
使用 MIND 等多模态图像强度相似度量学习
PDD 2.5 Weakly-supervised learning of multi-modal features for regularised iterative descent in 3D image registration10
使用仿射矩阵的一致性正则学习11
或者,可以采用分割标签进行弱监督,主要是最大限度地利用专家标注对齐已知结构2 10。这可以更好地配准具有良好代表性的解剖结构,但可能会对无标签的区域产生偏见并恶化性能。
为了避免对所有相关解剖结构进行详细全面的标注,并避免标签偏差,无监督和基于度量的配准网络被广泛用于基于单模态配准学习。然而,这对多模态配准问题提出了另一个挑战,因为目前尚未开发出通用度量,必须在使用局部对比度不变边缘特征(如 NGF、LCC)和 MIND 或更多全局统计度量(如互信息)之间进行权衡。
为了避免多模图像配准相似性度量的困难,我们提出了一个全新的概念。我们的方法既不需要标签监督,也不需要 handcrafted 的相似度量。
- 我们将自己局限于刚性配准,目的是通过最小化一致性差异来学习 CT 和 MRI 之间的多模态配准,而无需度量监督。
- 我们使用 CNN 进行特征提取,每个模态最初有单独的编码器块,然后在最后一层中共享权重。
- 我们使用一个没有可训练权重的相关层和一个可微最小二乘拟合程序来寻找最佳的三维刚性变换。
我们提出了用于多模态图像配准的自监督学习方法,旨在最小化变换矩阵一致性差异。在每次训练迭代中,使用一个(已知)随机刚性变换矩阵 R 23 \text{R}_{23} R23 生成合成图像。这样,得到了由两个多模态变换(变换矩阵 R 21 \text{R}_{21} R21 和 R 31 \text{R}_{31} R31)和一个已知单模态变换(变换矩阵 R 23 \text{R}_{23} R23)组成的循环,从而通过 ∣ R 23 ⋅ R 31 − R 21 ∣ → min | \text{R}_{23} \cdot \text{R}_{31} - \text{R}_{21} | → \text{min} ∣R23⋅R31−R21∣→min 的最小化问题指导神经网络学习。
乍一看,使用如此微弱的损失函数指导网络学习似乎很大胆(On first sight, it might seem daring to use such a weak guidance.)?但一旦学习到合适的特征,损失项就可以收敛,因为满足了一致性约束。我们主要依赖随机性(通过生成多个大型随机刚性变换矩阵)和神经网络探索性学习的力量。。。
在对应解剖结构中嵌入点坐标来学习
SAM
放射学图像,如 CT 和 X 射线,呈现具有内在结构的解剖学。。原则上,可以使用地标检测(landmark detection)或语义分割来完成这项任务,但要需要为 ROI 解剖结构提供大量标注数据。
我们介绍了一种称为自监督解剖嵌入(Self-supervised anatomical embedding,SAM)的方法,从无标注的图像中学习内在结构。SAM 为描述其解剖位置或身体部位的每个图像像素生成语义嵌入。为了产生这种嵌入,我们提出了一个像素级的对比学习框架。从粗到精的策略确保对全局和局部解剖信息进行编码。设计了负样本选择策略以增强嵌入的可分辨性。
。我们证明了 SAM 在 2D 和 3D 图像的多任务中的有效性。在具有 19 个标志点的胸部 CT 数据集上,SAME 12 优于广泛使用的配准算法,而推理只需要 0.23 秒。
SAME
SAM 旨在匹配稀疏点。通过匹配固定图像和运动图像之间的每个像素,可以直接将其用于全体积配准,但由于三维 CT 扫描中有数百万像素,因此效率极低。我们提出了一种 SAM-Enhanced 可变形配准算法,称为 SAME 12。
SAME 包括三个步骤:
- SAM-affine。我们首先在固定图像上采样稀疏网格并丢弃身体外的点,然后使用 SAM 匹配运动图像上相应的点。保持相似度分数高于阈值的匹配。利用这些点对,可以通过简单的最小二乘拟合来估计仿射变换矩阵。
- SAM-coarse,使用 SAM 在前一步的仿射配准图像上计算新的对应网格,以插值粗变形场。这两个步骤非常有效,不需要额外的训练,并且可以为最后一个步骤提供良好的初始化。
- 最后,SAM-VoxelMorph,。这是无监督的,只需要预训练的 SAM 模型。
虽然 SAM loss 是更具语义对齐图像的有效手段,但在标准体素变形中提取的特征仍然缺乏语义信息,这可能需要更好地指导预测。相关特征最初是在 FlowNet 中提出的,用于处理光流的这个问题。PDD-Net 中也使用它进行配准。简而言之,它计算 X f X_{f} Xf上像素 u u u 和 X m X_m Xm上像素 u + d u+d u+d 的相似性,其中 d d d 是一个小位移。计算每个像素和 n 个可能的位移值的相似性,以生成 n 通道特征图,然后在网络中的某个点将其连接到原始特征图。
。其中, Ω \Omega Ω 是 mask 中所有像素的集合;上标 v v v 表示已被 SAM 体素变形预测的变形场扭曲。
我们根据经验发现,使用 27 个位移值 d ∈ { − 2 , 0 , 2 } 3 d \in \{−2, 0, 2 \}^3 d∈{ −2,0,2}3 产生了良好的结果。在预测变形时,注入 SAM 相关特征为网络提供了改进的线索,从而进一步提高了准确性。
Jingfan Fan, Xiaohuan Cao, Qian Wang, PewThian Yap, and Dinggang Shen. Adversarial learning for monoor multi-modal registration. Medical image analysis, 58:101545, 2019. ↩︎
Hu, Y .; Modat, M.; Gibson, E.; Li, W.; Ghavami, N.; Bonmati, E.; Wang, G.; Bandula, S.; Moore, C.M.; Emberton, M.; et al. Weakly-supervised convolutional neural networks for multimodal image registration. Med. Image Anal. 2018, 49, 1–13. ↩︎ ↩︎ ↩︎
Xun Huang, Ming-Y u Liu, Serge Belongie, and Jan Kautz. Multimodal unsupervised image-to-image translation. In Proceedings of the European conference on computer vision (ECCV), pages 172–189, 2018. ↩︎
Taesung Park, Alexei A Efros, Richard Zhang, and Jun-Yan Zhu. Contrastive learning for unpaired image-toimage translation. In European Conference on Computer Vision, pages 319–345. Springer, 2020. ↩︎
Chen Qin, Bibo Shi, Rui Liao, Tommaso Mansi, Daniel Rueckert, and Ali Kamen. Unsupervised deformable registration for multi-modal images via disentangled representations. In International Conference on Information Processing in Medical Imaging, pages 249–261. Springer, 2019. ↩︎
Moab Arar, Yiftach Ginger, Dov Danon, Amit H Bermano, and Daniel Cohen-Or. Unsupervised multi-modal image registration via geometry preserving image-to-image translation. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 13410–13419, 2020. ↩︎
Zhe Xu, Jie Luo, Jiangpeng Yan, Ritvik Pulya, Xiu Li, William Wells, and Jayender Jagadeesan. Adversarial uni-and multi-modal stream networks for multimodal image registration. In International Conference on Medical Image Computing and Computer-Assisted Intervention, pages 222–232. Springer, 2020. ↩︎
Chengjia Wang, Guang Yang, Giorgos Papanastasiou, Sotirios A Tsaftaris, David E Newby, Calum Gray, Gillian Macnaught, and Tom J MacGillivray. Dicyc: Gan-based deformation invariant cross-domain information fusion for medical image synthesis. Information Fusion, 67:147–160, 2021. ↩︎
“Affine Medical Image Registration with Coarse-to-Fine Vision Transformer” (CVPR 2022), written by Tony C. W. Mok and Albert C. S. Chung. ↩︎
Blendowski, M.; Hansen, L.; Heinrich, M.P . Weakly-supervised learning of multi-modal features for regularised iterative descent in 3D image registration. Med. Image Anal. 2021, 67, 101822. ↩︎ ↩︎
Siebert, H.; Hansen, L.; Heinrich, M.P . Learning a Metric for Multimodal Medical Image Registration without Supervision Based on Cycle Constraints. Sensors 2022, 22, 1107. https://doi.org/ 10.3390/s22031107 ↩︎
Yan K, Cai J, Jin D, Miao S, Guo D, Harrison AP, Tang Y, Xiao J, Lu J, Lu L. SAM: Self-supervised Learning of Pixel-wise Anatomical Embeddings in Radiological Images. IEEE Trans Med Imaging. 2022 Apr 20;PP. doi: 10.1109/TMI.2022.3169003. ↩︎ ↩︎ ↩︎
F. Liu, K. Y an, A. P . Harrison, D. Guo, L. Lu, A. Y uille, L. Huang, G. Xie, J. Xiao, X. Y e, and D. Jin, “SAME: Deformable Image Registration based on Self-supervised Anatomical Embeddings,” in MICCAI, 2021. ↩︎