首页 > 技术文章 > SCAN:结构校正对抗网络用于胸部X光图像分割 论文笔记

siena0706 2020-05-30 13:54 原文

新冠肺炎的典型胸部CT表现包括:

磨玻璃影

 

 

实变

 

铺路石征

 

 

一些肺部病变的典型CT表现通常不会出现在新冠肺炎中

例如:

 

 

胸腔积液,即液体积聚于肺叶外的胸膜腔内,很少见于COVID病例中,通常见于充血性心力衰竭和细菌性肺炎中。

 

纵隔或肺门淋巴结肿大也几乎不会出现在COVID病例中。这在其他类型的肺炎中比较常见。

 

 

空洞在COVID病例中也不常见,通常出现在细菌性或真菌性肺炎中病变的肺组织坏死(并经支气管排出)后形成的含气空洞。

 

但是新冠肺炎的典型肺部特征:磨玻璃影,实变,铺路石征也可见于其他的病毒性肺炎中(例如流感病毒或腺病毒引起的肺炎),在一些非感染性疾病中也可以看到这些典型表现。

这意味着胸部CT对诊断新冠肺炎的灵敏度比较高,但是特异度比较低。(即能够将真正的患者筛检出来的能力比较好,但是将实际无病者排除出去的能力比较差)。

 

 

论文地址:SCAN

SCAN: Structure Correcting Adversarial Network for Organ Segmentation in Chest X-rays

用于胸部X光图像分割的结构校正对抗网络

 

是什么:采取了Luc2016首次将GAN用于图像分割的思想,区别是分割网络与评价网络都采用了全卷积网络,本篇论文是首次将全卷积网络用于分割与评价网络(其实类似于GAN中的Discriminator),并且基于CXR(Chest X-rays)图像的特殊性,对下采样模块进行了简化,从而降低了整个分割网络的量级。

 

意义:提出了一种基于GAN的解决方案(SCAN),可以增强分割的整体一致性,并提取心脏和左/右肺的轮廓。这项工作的主要贡献是使用全卷积网络,其中VGG下采样路径的特征映射较少。能够大幅提高分割的准确性,经过实验,此模型在分割的精准度上与人类专家有一定竞争性。肺领域分割率94.7%(人工 94.6%),心脏领域分割率86.6%(人工87.8%)。

 

怎么做的:通过采用体积网络方法进行器官分割,由于训练数据的限制,单纯的分割模型无法捕捉到足够的全局结构来生成自然轮廓。为了在生理结构的基础上实现规则化,该团队引入了一个评价网络,该网络可以区分由这些分割网络合成的predict mask和ground truth。这些监控网络和核心网络可以实现端到端的培训。通过这个对抗性的过程,关键网络学习,高阶规则,有效地将这个全局信息转移回分割模型,以实现实际的分割结果。

 

 

 

器官分割是计算机辅助检测CXR图像的一个重要步骤。肺场和心脏的分割提供了丰富的结构信息,形状不规则和大小测量,可以直接用于评估某些严重的临床条件,如心脏肥大(心脏扩大),气胸(肺塌陷),胸腔积液,肺气肿。

 

       CXR图像分割的一个主要挑战即需要把医学知识融入到轮廓的确定中,医学专家对CXR图像进行注释的时候会寻找围绕肺场的一致结构,见上图,这种先验知识对于解决病理条件或由于成像质量差导致不太清晰区域的边界而言是非常重要的。但是CXR图像注释的工作对于人类医学专家而言负担太大,并且CXR在不同的患者群体、病理条件下具有显著的差异。因此,一个成功的分割模型必须要仿照人类标注CXR图像那样,有效地利用全局的结构信息来解决局部细节。

       因此提出了结构校正对抗网络(SCAN)框架。

 

整个框架联合训练一个分割网络和一个具有对抗机制的评判网络。分割网络产生逐像素类预测。评判网络选择使用ground truth掩码或者是分割网络产生的预测掩码或原始CXR图像作为输入,输出则是一个概率估计。(输入是ground truth(1)还是predicted mask(0))

 

由于CXR图片是灰度的,与自然图像有很大的不同,可能直接限制了现有模型的可移植性。因此,作者将FCNs应用于灰度的CXR图像上。并且对FCN构成的分割网络做了一定的处理。

 

我们处理的问题分割左肺场,右肺场和心脏在胸部x光(CXRs)在前后(PA)视图,其中辐射通过病人从后面到前面。由于CXR是三维结构的二维投影,器官重叠严重,在定义肺场时必须小心。我们采用的定义[31]:肺字段包含的所有像素的辐射经过肺但不是通过以下结构:心脏、纵隔(两肺之间的不透明的区域),在隔膜,主动脉,,如果可见,上腔静脉(图2)。心脏边界通常是可见的两边,而心脏的pand底部边界必须由纵隔推断由于阻塞。从图1中可以看出,这个定义包含了肺野和心脏的常见概念,并包括了临床环境中与CXR相关的区域。

 

在生成式建模的背景下,生成式对抗网络(GAN)[9]中首次提出了对抗训练。GAN框架由一个生成器网络和一个参与对抗性双人游戏的评论者网络组成,生成器的目标是学习数据分布,而评论者估计样本来自训练数据而不是生成器合成的概率。生成器的目标是最大化评论家犯错误的可能性,而评判网络优化了错误的可能性。已经证明,该生成器生成的样本(例如图像)是高度真实的[20]。

 

评判家网络是一个复杂的神经网络,可以学会利用生成器合成样本中的高阶不一致性。通过生成器评判器的相互对抗,评判器可以使生成器生成的样本更加符合高阶结构。

 

即使人类CXR图像会因为患者个体的情况存在着差异,但是通常具有稳定的生理结构。因此,在CXR标准成像中,我们希望从标准成像中获得生理结构的一致性,并且学习更高阶的结构,从而对生成器做出引导,使其能够生成全局结构的同时掩码更加具有一致性。

 

分割网络结构

 

(a)是用于密集预测的全卷积网络FCNs。特征图分辨率(如400×400)只表示与前一层分辨率不同的图层。箭头表示向前传递,整数序列(1、8、16、…)表示特征图的数量。残差块、平均池和反卷积 箭头下方的k×k表示接受域大小。深灰色箭头表示5个残差块。所有的卷积层都是步长为1*1,而平均池化层的步长为2×2。输出是4个类(3前景+1背景)的类分布。值得注意的是,这样设计分割网络用到的参数总数是271k,比起[14]中基于VGG的下行采样路径小约500倍。(原因见下文)

(b)剩余的模块基于[11],保持了相同数量的地物图和空间分辨率。

 

大部分的FCNs应用于带有RGB通道的彩色图像,下采样路径都是在大规模图像分类中训练参数初始化的。但是CXR图像是灰度的,因此图像分类网络中使用大模型容量利用更丰富的RGB输入可能会对分割的结果产生反效果。因此该团队简化了FCN架构,从第一层的8个特征图开始(VGG第一层有64个特征图),为了保持足够的模型容量,转而深入到20个卷积层,并且在最后一层交错了1x1和3x3的卷积用于模拟瓶颈。总而言之,该分割网络使用到的参数数量是271k个,比起基于VGG的FCN小了500倍,这样的好处是使得整个网络能够得到优化的同时不依赖以往的任何模型,很适合处理CXR灰度图像。

 

 

评判网络结构

 

评判网络的FCN结构和分割网络是一样的,只不过输入的时候有四个通道,当输入图像被包含在内的时候有五个通道。黄盒子有64个通道,对应分割网络中的最后一个绿盒子。如果输入来自分割网络,则训练目标为0,如果是ground truth则训练目标为1。实验表明包含原始CXR图像并不能提高性能,因此只把掩码预测提供给评判网络作为输入。整个网络的参数数量为258k。

 

对抗训练语义分割过程:

S:分割网络 D:评判网络

输入是图像xi和相关联的掩码标签yi,其中xi是高度为H,宽度为W的单通道灰度图像xi[H,W,1],yi则是高度为H,宽度为W,通道数为包含背景的类数C,即yi∈[H,W,C]

每个像素位置= 1 对于标记类通道为C,对于其他通道为0,即

yijkc’=0 for c’ ≠ c

S(x)∈[0,1][H,W,C] 表示S在每个像素点的预测类概率,使得类概率在每个像素点上归一为1.

D(xi,y)表示y来自于yi(ground truth)而不是来自S(xi)(预测掩码)的标量概率估计。

整个对抗训练的优化公式表示如下:

 

其中,

是预测掩码中所有像素平均值的多类交叉熵损失。

 

是评判网络预测时产生的二元逻辑损失。

 

λ 是一个调优参数,用于平衡像素损失与对抗损失,通过优化S和D之间交替使用的各自损失函数。

 

训练评判网络:

由于上面的总优化式首项不依赖于D,所以可以固定住S来最小化下式。 

 

训练分割网络:

反过来,我们可以固定住D,最小化下式来训练分割网络S。

实验验证

由于GANs在训练的时候是不稳定的,在生成器生成的结果位于比数据分布小得多的子空间里,GANs会崩溃。为了缓解这一问题,团队在预训练分割网络的时候只是用了像素损失,训练分割网络使用的像素损失涉及到向前和向后传播,通过的不仅仅是分割网络而且还有评判网络。学习率设置为0.0002,使用Adam优化器来训练350个epoch,并且定义为跳过训练集,batch设置为10。每当训练涉及评判网络的时候,每个小批处理对评判网络执行五个优化步骤(用于分割网络上的优化步骤)。

使用两个指标对分割结果做出评估

1、IOU(交并比):用于评价ground truth 和预测掩码之间的一致性。

设P为分割网络产生的类预测掩码的像素集合,G为同一类的ground truth 掩码的像素集合。

           IOU=

 

 

2、Dice Coefficient(骰子系数)

 

 

测试结果:

 

 

 

推荐阅读