阅读笔记:VoxelMorph: A Learning Framework for Deformable Medical Image Registration

9

作者: Guha Balakrishnan, Amy Zhao, Mert R. Sabuncu, John Guttag, and Adrian V. Dalca

期刊/会议: CVPR

年份: 2019

标签: registration, machine learning, convolutional neural networks

核心贡献

  • 根据“摊销优化”的设计哲学,设计了一种根据输入的两张图片输出配准变形场的网络,代替了传统的需要逐个图片配准的算法,实现了更快的配准。网络通过大量数据学习了两张图片之间的配准函数,把优化计算从测试阶段转移到了训练阶段。

方法概述

网络结构是UNet,输入是两通道的3D图像,将moving(待配准图$m$)和fixed(参考图$f$)拼接在channel维作为输入。输出网络的变形场后通过一个Spatial Transform进行配准操作。

image-20260602162134443

Spatial Transform公式如下: $$ m\circ\boldsymbol{\phi}(\mathbf{p})=\sum_{\mathbf{q}\in\mathcal{Z}(\mathbf{p}^{\prime})}m(\mathbf{q})\prod_{d\in\{x,y,z\}}(1-|\mathbf{p}_d^{\prime}-\mathbf{q}_d|), $$ 其中$\mathbf{p}$表示一个voxel的坐标,$\mathbf{p}'=\mathbf{p}+\mathbf{u}(\mathbf{p})$,$\mathbf{u}$表示变形操作。$\mathcal{Z}(\mathbf{p}^{\prime})$表示$\mathbf{p}^{\prime}$的8个邻居坐标(3维空间中有8个邻居,如果是2维就只有4个)。这里要注意的是,坐标$\mathbf{p}$和$\mathcal{Z}(\mathbf{p}^{\prime})$都是整数,但是$\mathbf{p}'$是经过变形得到的,通常不是整数,因此需要通过对$\mathbf{p}'$的邻居进行插值得到$\mathbf{p}'$处的强度值。另外一个要注意的点是值的流向是$\mathbf{p}'$到$\mathbf{p}$,也就是通过插值得到$\mathbf{p}'$位置的值后将其赋值给坐标$\mathbf{p}$,如下图所示:

image-20260602161155807

以上操作整体可以由公式(1)来表示,这里的公式(1)实际上就是加权求和,所以是可微的,可以直接参与反向传播。因此网络可以端到端训练。

另外训练过程中可以用分割标签来辅助训练,只要在loss中加入分割mask的Dice系数即可。文中提到这个操作可以提高网络的表现。

实验设置

  • 数据集:使用了多个公开数据集OASIS,ABIDE,ADHD200,MCIC,PPMI,HABS,Harvard GSP,FreeSurfer Buckner40
  • 对比方法:
  • 评价指标:

结果分析

个人思考

  • 可借鉴的点:首先摊销优化这种设计哲学可以作为一个网络设计的出发点。通过大量数据训练的网络,代替原本需要的逐subject计算。相当于用训练时间代替测试时间。其实是这个网络结构可以直接作为配准的baseline使用。
  • 存在的问题:
  • 与我研究的关联:
  • 我的理解程度:

⭐️⭐️⭐️