首页 > 技术文章 > 论文翻译 2021_Heart Sound Classification Considering Additive Noise and Convolutional Distortion

yangzhengjie 2022-06-22 15:34 原文

考虑加性噪声和卷积失真的心音分类

作者:FARHAT BINTE AZAM1, (Student Member, IEEE), MD. ISTIAQ ANSARI1,IAN MCLANE2, (Member, IEEE) AND TAUFIQ HASAN1 (Senior Member, IEEE)

摘要

心脏听诊是早期诊断心脏病的重要护理方法。用于异常检测的心音自动分析面临着加性噪声和传感器依赖性退化的挑战。本文旨在开发解决心脏听诊声音中同时存在两种失真时心脏异常检测问题的方法。我们首先从数学上分析了加性噪声和卷积噪声对基于滤波器组的短期特征和卷积神经网络(CNN)层的影响。在此基础上,我们提出了一种线性和对数谱图图像特征的组合。这些2D特征作为残差CNN网络(ResNet)的输入,用于心音异常检测。实验验证是在一个开放获取的心音异常检测数据集上进行的,该数据集涉及从多个听诊器传感器获得的噪声记录。与传统方法相比,该方法取得了显著的改善,ROC(受试者操作特征)曲线下面积(AUC)为91.36%,F-1评分为84.09%,Macc(敏感性和特异性平均值)为85.08%。我们还表明,所提出的方法在包括听诊器和噪声变异性在内的不同源域中显示出最佳的平均精度,证明了其在不同记录条件下的有效性。所提出的线性和对数特征与ResNet分类器的组合有效地将背景噪声和传感器可变性对心音图(PCG)信号分类的影响降至最低。该方法为在噪声环境中使用低成本听诊器开发计算机辅助心脏听诊系统铺平了道路。
关键词:加性失真和卷积失真、听诊器变异性、心音分类。

介绍

心血管疾病(CVD)给公共卫生部门带来了巨大的负担,每年造成约1790万人死亡,占全世界死亡人数的31% [1]。根据疾病控制中心(CDC)的数据,仅在美国,每36秒就有一人死于CVD [2]。由于缺乏训练有素的医生和诊断设备,中低收入国家的心血管疾病负担要高得多[1]。由于早期诊断是减轻心血管疾病负担的关键,低成本的筛查工具,如带有自动杂音分析算法的数字听诊器,正变得越来越广泛。随着嵌入式系统的发展,现在有可能将复杂的机器学习模型集成到听诊器的内置微处理器中。然而,在设计计算机辅助心脏听诊框架时,尤其是在服务不足的社区,听诊器传感器(如振膜、放大器)引入的失真和背景噪声尤其令人担忧。
在检测心血管疾病的自动心音分析领域已经进行了大量的研究。公开可用的数据集【6】、【7】加速了该领域的研究进展,尤其是2016年Physionet/CinC挑战【8】、【9】数据集。该数据集提供了使用七种不同听诊器/传感器采集的4430个PCG记录的档案,并标注为生理(正常)或病理(异常)。使用该数据集,已经尝试了多种心音异常检测方法。研究了一组不同的前端特征,包括时间、频率和统计特征【10】、Mel频率倒谱系数(MFCC)[11]–[14]和连续小波变换(CWT)[15]、[16]特征。基于时间-频率的特征,包括MFCC和Mel光谱图,在最近的研究中最常用。已经尝试了大量分类器,包括k-最近邻(k-NN)[12]、支持向量机(SVM)[17]、随机森林[10]、多层感知器(MLP)[16]、[18]、具有一维和二维CNN的深度学习方法[19]–[23],以及递归神经网络(RNN)[24]。虽然[20]解决了心音分类的域变异性问题,但没有解决加性噪声问题。表1总结了与拟议方法相关的最新研究工作。请注意,不同的作者使用PhysioNet数据使用了不同的列车试验分段,因此,在大多数情况下,结果不具有可比性。

本研究使用2016年PhysioNet验证集,使用跨领域和病理学类别的平衡测试数据。这允许更好地评估不同数据子集的性能。然而,该结果无法与使用不同数据分割或10倍交叉验证的其他研究进行比较。

以前的方法的一个主要限制是,虽然[20]中只讨论了传感器的可变性,但没有一项工作考虑到信道/传感器的同时存在以及该任务的加性噪声失真。传感器/通道可变性通过时间卷积影响信号,而加性噪声则线性影响信号。因此,很难区分畸变的两个组成部分。传统的信号处理方法主要通过对数滤波器组分析解决信道失真问题,其中卷积失真变为加性失真【26】。这也解释了MFCC功能对于心音分类任务的有效性。之前关于同时存在加性噪声和卷积噪声的研究主要集中在语音处理应用上【27】–【29】。然而,文献中的心音分析尚未解决这一问题。
在心音的情况下,信号退化的主要来源是:(i)听诊器/传感器引起的变异性[20]作为卷积退化(通道失真)影响PCG,以及(ii)加性噪声的影响(例如,来自环境或患者)。这些效果如图1所示。尤其是在低资源医院,噪声是使用听诊器自动评估心脏疾病的一个主要问题。文献[20]表明,当测试数据中遇到不同的听诊器时,最先进的心音分类算法无法提供一致的性能。虽然整体性能令人印象深刻,但这些算法很容易与使用最流行听诊器记录的数据过度匹配。这就是为什么经常在此数据集上执行的10倍交叉验证[25]提供了过度优化的性能,因为由于Physionet数据中存在严重的域不平衡,测试集无法提供足够的可变性(图6)。在[20]中,提出了一种小批量平衡方法来解决域可变性引起的性能问题,并且在域和类平衡的测试集上发现了跨不同域性能的一致改善。然而,该数据集还包含由人类语音、环境声音、听诊器运动、呼吸、肠道活动等引起的加性噪声[9],这在[20]中没有考虑。

图1 显示心脏听诊期间加性噪声和卷积失真来源的示意图模型。
本文旨在解决心音分类问题中同时存在加性噪声和卷积失真的问题。在心脏听诊的情况下,附加噪声主要包括呼吸音和环境噪声。卷积失真代表听诊器传感器的转导效应。本文的主要贡献有:
•考虑到系统中存在的加性和卷积失真,我们引入了听诊期间的声学环境模型。
•对线性和对数滤波器组域中的心音进行加法和卷积失真分析,并表明这两种失真都可以转换为加法失真。
•分析常规CNN模型第一层中加性不相关随机噪声的影响。
•提出了一种简单的特征融合技术,将线性和对数滤波器组特征相结合,以同时处理加性噪声和卷积失真。
•实验验证,与使用深度残差网络的现有方法相比,提出的特征融合方案可以有效提高心音分类性能。
本文的其余部分组织如下。在第一节至第二节中,我们详细阐述了我们提出的方法的动机和实施细节。第三节描述了使用的数据集、执行的不同实验、对所提出方法获得的结果的分析以及性能比较。最后,在第四节和第五节中,我们讨论了我们方法的局限性、未来的方向并总结了我们的发现。

背景

加性和卷积失真

根据【27】,我们考虑听诊器的参数模型,如图2所示。这假设由于听诊器的脉冲响应,在通过时间卷积操作进行处理之前,首先添加原始PCG信号和不相关噪声分量。对于给定的长度为N的短时间段,我们假设干净的PCG、有噪声的PCG、加性噪声和听诊器脉冲响应,听诊器脉冲响应分别由s[t]、x[t]、n[t]和h[t]给出。根据图2的参数模型:


图2 显示加性噪声和卷积失真的PCG信号采集过程的参数模型
注意,我们假设听诊器脉冲响应与短时段无关,因为它是设备的时不变特性。我们还假设脉冲响应h[t]的长度小于N。在离散傅立叶变换(DFT)域中表示(1),在每个段中,利用DFT的卷积特性,我们得到

在此步骤中,我们假设K点DFT,K=0,1··,K表示频率指数,而X[·]、S[·]、N[·]和H[·]表示相应时域信号的DFT系数。注意,听诊器传递函数引起的卷积失真H[k]现在已变为乘法。接下来,我们通过将DFT系数的绝对值平方化来估计该短时PCG段的功率谱,并获得

线性滤波器组能量分析

使用滤波器组可以方便地在不同频段分析音频信号。让我们假设一个由M个滤波器组成的预定义滤波器组,并将带噪PCG信号的第i个滤波器能量系数表示为X[i]。我们假设滤波器组能量项X[i]通过表达式与X[k]相关

这里,Eik指示在属于第i滤波器的k个频率索引上执行期望值操作。将(3)中的值代入,

从统计学上讲,心音s[t]和加性噪声n[t]是独立且不相关的,因此(5)的最后一项的期望值可以近似为零。根据这一假设,并使用滤波器组能量的定义,我们对(5)进行简化,以获得在[27]中推导出的类似表达式,该表达式由

这里,S[i]、N[i]和H[i]表示从相应DFT系数获得的滤波器组能量值。因此,根据(6),背景噪声分量N[i]与信号分量S[i]相加,而信道失真分量H[i]在滤波器组能量域中是相乘的。

对数滤波器组能量分析

在滤波器组分析中,通常对能量系数进行对数运算,以增加动态范围,并将乘法运算转换为加法运算。取(6)的自然对数,我们得到

正如预期的那样,(7)揭示了在对数滤波器组域中,信道或传感器/传感器失真变为加性失真,而心音信号和背景噪声变为输出对数能量系数的非线性函数。
这是倒谱分析将通道效应与信号分离的动机之一【26】,【30】。我们可以写(7)来表示每个帧的对数能量向量,使用矩阵表示法如下

其中

在(8)中,每个向量由从各个前端滤波器获得的M个元素组成。总结我们对滤波器组和对数滤波器组能量分析的分析,当存在加性失真和卷积失真时,不可能在特征域中将它们分解为加性项。然而,如(6)中所述的噪声分量或如(7)中所述的卷积失真分量可以分别成为加性的。均值归一化可以很容易地减少特征中的静态加性失真分量,这是用于鲁棒语音识别的传统倒谱均值归一化(CMN)[31]的最初动机。
倒谱特征域分析
MFCC功能经常用于语音和音频处理。在提取对数滤波器组特征后,再进行一步离散余弦变换(DCT)以获得众所周知的MFCC系数【26】。执行DCT步骤以降低不同滤波器组能量系数之间的相关性,并将特征的总能量压缩到前几个分量。因此,在该步骤之后,通常会消除高阶DCT系数,从而降低特征维数。由于DCT是一种线性运算,因此从(8)可以看出,卷积失真分量在该运算之后仍然是一个加法分量。因此,我们有

类似地,我们可以很容易地表明,通过移除高阶DCT系数,(9)仍然适用于其余系数。然而,PCG信号和加性噪声仍然纠缠在ES+N分量中,它们之间的关系是非线性的。

CNN模型中的加性失真

尽管CNN主要用于图像分类,但在许多1D信号处理应用中,2D光谱图像被用作CNN模型的输入特征进行分类[32]。此外,以前的方法在数据增强的训练中使用了加性噪声,这通常提高了模型的鲁棒性【33】、【34】。在本小节中,当输入特征数据中存在加性噪声分量时,我们对CNN输入层进行数学分析。
在CNN模型的第0(第一)层中,对于2D输入特征矩阵Fcn和第j个2D核Kj,非线性激活层之前的第j个输出特征映射如下所示:

在这里⊗ 表示在CNN层中执行的相关操作。式(10)可表示为第m行和第n列的每个单独矩阵元素,

这里,我们假设核大小为(2l+1)×(2l+1),α和β是虚拟变量。当考虑来自心音的频谱图图像时,m表示短时帧指数,而n表示频带指数。
现在我们假设输入特征矩阵Fcn可以表示为

其中Fc取决于c类∈ C其中C定义了一组疾病类别,Fn是一个与Fc无关的加性噪声分量(因此与C无关)。Fn的来源可能是环境噪声或传感器退化。考虑到这种加性失真的存在,我们从(10)中得到

假设模型在足够大的数据量上训练后已经收敛,我们可以计算特征映射的期望值为

在此阶段,我们将做出一些简化假设。由于CNN模型使用损失函数进行训练,从而使分类误差最小化,因此当在足够的训练数据上进行训练时,可以预期,模型参数将取决于疾病类别c。相反,根据定义,加性成分Fn与Fc无关,因此与疾病类别c无关。因此,我们可以假设,在训练收敛后,E{Fn⊗ Kj}≈ 0和(13)可以写为

因此,我们可以得出结论,在数据中存在加性不相关噪声的情况下,当存在足够的训练数据时,可以假设CNN模型参数与噪声无关。相反,对于特征矩阵中的乘性噪声,从(11)可以明显看出,类似于(14)的分解将不可能,并且网络的学习将直接受到失真的影响。

F 线性和对数特征的融合

很明显,线性滤波器组能量特性受到附加噪声的线性影响,而受到通道/传感器噪声的非线性影响,如(6)所示。相反,对数滤波器组能量特性受通道/传感器噪声的线性影响,而受附加噪声的非线性影响,如(7)所示。因此,在这方面,线性和对数滤波器组能量特征是互补的。然而,如果我们将这两种类型的特征串联起来,那么加性噪声和卷积失真都可以作为加性分量在融合的特征空间中分离出来。如(15)所示,假设噪声独立且与信号分量不相关,则CNN模型在分类过程中受加性失真的影响较小。然而,在所提出的融合特征空间中,噪声和信道失真分量都变得相加。因此,我们假设融合的特征集将在存在加性噪声和卷积/信道噪声的情况下提供更好的性能。本文的以下部分将重点设计相关特征,并通过实验评估验证这一假设。

拟定方法

在本节中,我们将讨论所提出的特征提取方法和CNN体系结构的发展,以有效分类心音,同时考虑加性失真和卷积失真。

预处理和分段

首先将心音片段重新采样至1000Hz,然后在25-400Hz之间进行带通滤波,并根据[35]进行心动周期分割。在下一步中,我们确保每个心音训练段由固定持续时间为2.5s的单个心动周期组成。如果心动周期小于2.5s,则应用零填充。

特征提取框架

为了验证我们的假设,我们需要从PCG信号片段中提取四种不同的基于滤波器组的声学特征。这些基于方程式(6)、(7)和(9)。可以使用图3中概述的统一框架有效地提取特征。提取程序如下所述。
首先,将PCG信号段划分为长度为0.5s的短时间帧,连续帧之间的跳数大小为0.01s。使用26个mel比例滤波器对0.5s段进行滤波器组分析。表2总结了从这些片段中提取的特征。为了验证我们的假设,有必要对所有这些特征进行分类实验,原因如下。根据(6),Fbank特征应能在附加噪声情况下表现更好。在Log-Fbank的情况下,根据我们在(7)中的分析,我们可以期望在卷积失真的情况下得到更好的结果。由于CNN模型能够对输入特征之间的相关性进行建模,因此在我们的例子中,离散余弦转换(DCT)步骤是否会提高性能尚不清楚。因此,我们保留了传统MFCC特征的MFCC-13和MFCC-26变体,以观察离散余弦转换(DCT)对分类性能的影响。

图3:声学特征提取框架的流程图。如图所示,从不同的阶段提取不同的特征。
表2 声学特征描述

准备二维特征矩阵

从每个2.5s段中,提取的特征(列)向量水平叠加,形成二维特征矩阵(输入),以便使用我们的CNN模型进行分类。每个输入特征矩阵的维数为d×246,其中d表示声学特征维数。图4显示了表2中所述的四个特征。在输入CNN模型之前,通过减去整个周期的平均值并除以其标准偏差(STD),对每个心动周期的特征进行归一化。

图4 声学特征的二维可视化,作为拟议CNN模型的输入。(a) 滤波器组能量(Fbank),(b)对数滤波器组能量(Log Fbank),(c)全维MFCC(MFCC-26),(d)降维MFCC(MFCC13)。

模型架构

采用基于[36]的残差神经网络(ResNet)结构作为分类模型。对模型进行了修改,以适应所提出的输入特征。该模型有四个resnet层,每个层包含两个剩余块,第一个块具有下采样,而后者具有直接跳连接。图5显示了所使用的模型架构。每个剩余块通常由两个卷积块组成,卷积块也执行下采样操作。每个卷积块都有一个核大小为3的卷积层,然后是2D批量归一化层和校正线性单元(ReLU)激活函数。使用Xavier方法初始化每个卷积层的权重【37】。这四个resnet层的过滤器数量为16、32、64、128。输入特征矩阵在resnet层之前通过最大池数为2的卷积块。然后将从第四个resnet层提取的特征展平,并使用softmax激活添加两个神经元进行二元分类(正常和异常PCG)。该代码可在线访问https://github.com/mHealthBuet/CepsNET。

图5 用于心音异常检测的残差模型结构。

实验和结果

数据库

我们使用2016年PhysioNet/CinC挑战数据库【9】进行实验。它是临床和非临床环境中PCG记录的存档。它共包含764名患者的3157次记录,共包含84425个心动周期,心率从每分钟35次到159次(bpm)。PCG记录是从七个不同的研究组收集的,这些研究组被表示为{a-g,i}。该数据集的简要总结如表3所示。在七个类别中,有六个{a-f}集分布在培训数据中,这些数据是公开的。录音的持续时间通常在5到120秒之间。还提供了记录质量元数据、S1、S2、收缩期和舒张期的开始注释。
如表3所示,该数据集在病理分类(正常与异常)和数据子集/域({a-f})方面都是不平衡的。我们使用2856(90.47%)进行培训,剩余301(9.53%)进行测试。该测试集基于原始Physionet挑战验证集,该验证集是域和类平衡的[20]。训练—测试分离在设计上也与患者无关。类别不平衡、听诊器传感器的可变性和噪声环境都是该数据集中需要解决的具有挑战性的问题,因此适合对所提出的方法进行实验验证。
表3 生理网/CinC挑战数据库的数据分布。

训练模型

如图6所示,在训练集中,e子集的记录数最多(约68%)。因此,我们使用域平衡训练(DBT)方法来准备针对类和域平衡的小批量数据【20】。该方法在域可变性和数据不平衡的情况下是有效的。我们也在左右方向上应用移位,以避免分割错误的影响。
为了检验输入特征变化对分类性能的影响,我们分两步进行了实验。首先,我们使用从表2中描述的各个特征中提取的2D矩阵作为模型的输入。图4中的前三个特征(Fbank、Log Fbank、MFCC-26)为形状(246、26),而第四个特征(MFCC-13)为形状(246、13)。所提出的模型设计为能够处理不同的输入维度。实验的总体结果如表4所示。在第二步中,我们使用四个选定特征的多个特征组合(图4)进行性能分析。在这种情况下,各个特征垂直连接,这增加了模型的输入高度(最小26到最大65)。

图6 PhysioNet心音数据传感器相关子集的分布。
表4 心音异常检测任务的基线和建议系统的实验结果。

优化和超参数调整

我们使用来自最终softmax层输出的交叉熵损失,并使用Nesterov动量法通过随机梯度下降(SGD)进行优化【38】。我们还使用循环学习率(CLR)调度器来改变相同高度三角形中的学习率。调度器的超参数,包括最小和最大学习率以及步长,根据[39]计算。当使用这些参数进行训练时,模型通常在50-60个周期内收敛到最优点。多数表决用于获得从单个2.5s分段获得的心音记录的最终异常预测。

性能指标

网络提供的最终决策用于计算以下性能矩阵:AUC、F1-score和modified accuracy (Macc)[20]。Macc值是通过平均灵敏度和特异性[9]得到的,因此可以认为是总体系统性能的可靠度量。
此外,我们还计算了如图5所示分布的单个数据子集{a-f}[9]中每个系统的精度度量的平均值和标准差。这些数据子集在不同的环境位置(不同的噪声条件)和使用不同的听诊器/传感器(不同的卷积信道效应)[9]收集,汇总在表3中。这种针对子集的性能评估是必要的,因为它显示了由于数据不平衡,整体性能是否向特定子集倾斜,如图5所示。在子集上的平均精度和STD精度衡量了不同领域性能的鲁棒性和一致性。

基线方法和实现

在这项工作中,我们在Potes等人开发的Physionet 2016 CinC挑战赛中使用了性能最好的系统。这个分支的CNN模型(Potes-CNN)在[19]中实现,并添加了拟议的DBT训练方案,以解决数据集中存在的领域可变性。该网络使用一组有限脉冲响应(FIR)滤波器作为滤波器组前端,并提供每个分段心脏周期[20]的推断。分支的CNN模型[19],包含处理区域变化的DBT方法,称为Potes-CNN-DBT方法。这些系统的结果汇总在表4中。

个体特征的表现

首先,我们看看表4第二部分中各个特性的性能。个体特征表现最好的是Log-Fbank, AUC、F1-score和Macc分别为90.37%、84.40%和84.55%。我们假设对Fbank特征进行对数运算可以提高系统性能,因为它可以将传感器变化表示为特征空间中的一个附加成分。分别观察图7中Fbank和Log-Fbank特征的结果,我们间接地验证了这一假设,因为对数操作提供了分类性能的整体改善,同时也提高了系统在数据子集上的鲁棒性(增加了平均域精度和降低了STD)。需要强调的是,由于对数是一对一的函数,Fbank和Log-Fbank都承载着相同的信息内容。因此,我们假设这种改进是由于模型能够更好地拟合数据。
接下来,我们分析了DCT操作导致MFCC-26之后的系统性能,以及随后由于降维而导致的MFCC13。DCT操作通常用于特征降维,因为它将数据压缩成几个系数,并将它们去相关。理论上,深度学习架构应该能够对输入特征之间的复杂关系建模,从而使用数据独立的线性变换来解相关特征,即DCT应该不会有影响。然而,在实践中我们观察到,由于没有降维的DCT操作,大多数性能指标都会下降。Log-Fbank和MFCC-26的性能在图8中进行了图形化的比较,在图8中我们可以更好地观察到性能的差异。

图7 Fbank和Log-Fbank特征之间的性能比较,描述对数运算对特征的影响。

图8 Log-Fbank和MFCC-26特征之间的性能比较,这些特征描述了无降维的DCT操作效果。
从Log-Fbank到MFCC-26的性能下降可以解释如下。由于DCT操作是进行特征压缩,因此高频DCT系数的值应该可以忽略不计,并且所携带的关于PCG信号[30]的信息非常少。虽然Log-Fbank和MFCC-26的26个分量在理论上包含完全相同的信息,但由于特征在输入到ResNet模型之前被归一化,有可能这些不重要的频率分量被过度放大,从而混淆了模型。这与我们观察到的MFCC-26去除13个高阶系数的结果一致,我们可以从MFCC-13特征向量的结果中明显地提高性能。该特征集的敏感性、特异性、F1-score和Macc值分别为89.86%、77.40%、84.07%和83.63%,在个体特征中综合性能最好。由于该特性配置在语音和音频处理应用[30]、[40]中得到了广泛验证,因此MFCC-13的性能与预期的非常接近。

速度和加速度的影响

附加速度(∆) 和加速功能(∆∆) 与MFCC-13特性一起非常常见,因此我们还将检查这些简单特性修改的效果。从表4和图9的结果中,我们观察到添加这些特征的效果并没有改善静态MFCC-13系数的性能。我们假设,由于CNN模型将连续的MFCC-13矢量作为2D图像输入,它可以很好地建模速度和加速度特征,因此添加这些特征是多余的。

图9 MFCC-13、MFCC-13的性能比较+∆ 和∆+∆∆ 描述附加速度和加速度特征对心音分类任务影响的特征。

特征级融合

前面的小节分析表明,Log Fbank和MFCC-13是使用所述ResNet模型进行分类的心音异常检测的最佳两个特征。在背景-F节中,我们认为Fbank和LogFbank特征具有互补的属性,因为它们可以分别表示可加性和卷积失真,作为特征空间中的可加性成分。因此,我们的假设是,Fbank和Log-Fbank特征的融合将显著提高心音分类性能,特别是在这项任务中,因为它涉及听诊器/传感器和背景噪声在数据集[9]中的变异性。然而,在实践中,MFCC-13和MFCC-26特征具有相同的特性,即将卷积表示为线性操作,如(9)所示,因此在存在传感器可变性的情况下可以同样有效。
在分析的这一部分中,我们将讨论我们的特征级融合实验,如表4的第三部分所示。这些实验使用了Fbank、LogFbank和MFCC-13特征的几种组合,它们是最有前景的单个特征集。结果表明,Fbank和MFCC-13的特征级融合确实提供了最佳的整体结果和领域性能。这种配置产生的Macc分数为85.08%,与Potes CNN【19】和Potes CNN DBT【20】基线系统相比,绝对增益分别为5.29%和11.58%。就域性能而言,它在几乎所有的数据子集{a-e}中都表现得更好,平均准确率为86.2%(±8.42%)。因此,不同域的平均准确度有所提高,但与单个光谱时间特征相比,准确度的标准差也有所降低。这验证了我们的假设,即这种特定的特征组合是互补的,并且有效地解决了卷积(传感器可变性)和加性失真(噪声)分量的问题。

图10 在存在噪声和传感器变化的情况下,通过融合线性和对数特征(Fbank和MFCC-13)在心音异常检测中获得的改进。
我们想从表4的结果中指出其他几个观察结果。首先,如图4所示,所有三个特征(Fbank、Log Fbank、MFCC-13)的特征级融合没有显示出任何额外的好处。其次,通过引入DBT训练方案,在减少域可变性方面取得了显著的改进,这在[20]中已经提到。这可以从域性能评估中STD值的减少中看出。有DBT和无DBT的Potes CNN[19]的域精度分别为66.94%(±21.80)和78.31%(±12.95%)。因此,DBT方案已经改善了结果。然而,所提出的特征融合方案比Potes-CNN-DBT系统提供了额外的改进,进一步验证了所提出方法的有效性。我们还提供了图11中使用该融合特征集训练的模型提取特征的t分布随机邻域嵌入(t-SNE),在图11中,我们观察到不同的域在这个高维空间中几乎不可区分。这种描述与【20】中的观察结果一致。

图11 建议模型最后一层的TSNE可视化显示了不同数据子集的分布。没有形成具有不同源域特征的有意义的聚类。

统计学意义分析

在本节中,我们进行统计显著性检验,以评估所提方法获得的改进是否明显优于基线。我们使用McNemar卡方检验[41]对系统性能进行两两比较,并验证系统性能是否显著不同。结果汇总在表5中。通过本次分析,确实证实了本文提出的Fbank与MFCC-13融合方法相比基线系统Potes-CNN DBT[19],[20]的性能提升显著(p < 0.05)。这种特征融合组合提供了所有其他系统比较中最低的p值,并进一步证明了该方法在具有传感器和噪声变化的心音数据集中的有效性。与Humayun tConvCNN DBT[20]相比,该系统的Macc性能提高了3.59%。然而,根据McNemar卡方检验,这种改善并不显著(p > 0.05)。
表5 McNemar’s Chi-squared test用于统计显著性分析,与基线Potes CNN DBT【19】,【20】系统进行比较。

讨论

在这项工作中,我们间接验证了以下假设:滤波器组能量特征和对数滤波器组能量特征的特征级融合在存在噪声和传感器可变性的情况下,在心音异常检测任务中提供了稳健的性能。然而,所提议的方法的一个主要限制是验证本质上是经验的。虽然已知PhysonNet数据[9]包含环境噪声,但不可能从PCG信号中精确识别传感器相关(卷积失真)和背景噪声(加性失真)分量。然而,由于与现有方法相比,所获得的结果有了显著的改进,尤其是已经处理减少域可变性的方法[20],因此所提出的方法很有前景,值得进一步研究。通过利用听诊器的脉冲响应人工产生听诊器效应,并在干净的心音记录中加入环境噪声,可以进行更彻底的分析。在这种情况下,可以更系统地观察加性失真和卷积失真存在与否时特征的影响。然而,这种分析超出了当前工作的范围,我们将重点放在一种新的特征融合方案上,以处理信道和噪声的可变性。该方法简单,也可应用于其他涉及噪声和信道失真的生物医学信号分析任务。

结论

本文首先从数学上分析了加法失真和卷积失真对心音异常检测的同时效应。在PCG信号的背景下,我们假设加性失真分量代表环境和其他身体声音,而卷积失真包括传感器可变性和传输通道效应。我们已经证明,在心音分类任务中,使用滤波器组能量及其自然对数的组合有效地设计特征可以显著减少由于噪声和传感器退化而导致的域变异性。提出并评价了一种残差网络结构,对级联形成二维输入特征矩阵的特征流进行分类。实验结果表明,与采用领域平衡训练(DBT)方案的竞争性基线系统相比,该方法在Macc性能指标上取得了5.29%的显著绝对改善(p<0.05)。

参考文献

[1] W. H. O. fact sheet 317. (2017, May) Cardiovascular diseases (CVDs).[Online] Available: https://www.who.int/en/news-room/factsheets/detail/cardiovascular-diseases-(cvds). Accessed: September 2019.
[2] Centers for Disease Control (CDC), “Heart disease facts | cdc.gov,”https://www.cdc.gov/heartdisease/facts.htm, Sep 2020, (Accessed on
09/13/2020).
[3] S. Leng, R. San Tan, K. T. C. Chai, C. Wang, D. Ghista, and L. Zhong,“The electronic stethoscope,” Biomed. Eng. Online, vol. 14, no. 1, pp. 1–37, 2015.
[4] E. West, I. McLane, D. McLane, D. Emmanouilidou, M. Elhilali, J. E.West, A. Ward, I. Busch-Vishniac, J. McLane, and B. Dottin-Haley,“Introducing feelix, a digital stethoscope incorporating active noise controland automatic detection of lung sound abnormalities,” J. Acoust.Soc. Am.,vol. 145, no. 3, pp. 1923–1923, 2019.
[5] I. M. Mclane, D. Emmanouilidou, J. West, and M. Elhilali, “Design andcomparative performance of a robust lung auscultation system for noisyclinical settings,” IEEE Journal of Biomedical and Health Informatics,2021.
[6] A. L. Goldberger, L. A. Amaral, L. Glass, J. M. Hausdorff, P . C. Ivanov,R. G. Mark, J. E. Mietus, G. B. Moody, C.-K. Peng, and H. E. Stanley,“Physiobank, physiotoolkit, and physionet: components of a new researchresource for complex physiologic signals,” Circulation, vol.101, no. 23,pp. e215–e220, 2000.
[7] B. Schuller, S. Steidl, A. Batliner, E. Bergelson, J. Krajewski, C. Janott,A. Amatuni, M. Casillas, A. Seidl, M. Soderstrom et al., “The interspeech10 VOLUME 4, 20162017 computational paralinguistics challenge: Addressee, cold & snoring,”in Interspeech 2017, 2017, pp. 3442–3446.
[8] G. D. Clifford, C. Liu, B. Moody, D. Springer, I. Silva, Q. Li, and R. G.Mark, “Classification of normal/abnormal heart sound recordings:Thephysionet/computing in cardiology challenge 2016,” in 2016 Computingin cardiology conference (CinC). IEEE, 2016, pp. 609–612.
[9] C. Liu, D. Springer, Q. Li, B. Moody, R. A. Juan, F. J. Chorro, F. Castells,J. M. Roig, I. Silva, A. E. Johnson et al., “An open access database for theevaluation of heart sound algorithms,” Physiol. Meas., vol. 37, no. 12, p.2181, 2016.
[10] M. N. Homsi and P . Warrick, “Ensemble methods with outliers for phonocardiogram classification,” Physiol. Meas., vol. 38, no. 8, p.1631, 2017.
[11] J. Rubin, R. Abreu, A. Ganguli, S. Nelaturi, I. Matei, and K. Sricharan,“Classifying heart sound recordings using deep convolutional neural networks and mel-frequency cepstral coefficients,” in 2016 Computing incardiology conference (CinC). IEEE, 2016, pp. 813–816.
[12] I. J. D. Bobillo, “A tensor approach to heart sound classification,” in Proc.IEEE CinC. IEEE, 2016, pp. 629–632.
[13] B. Bozkurt, I. Germanakis, and Y . Stylianou, “A study of time-frequencyfeatures for cnn-based automatic heart sound classification for pathologydetection,” Computers in biology and medicine, vol. 100, pp. 132–143,2018.
[14] F. Noman, C.-M. Ting, S.-H. Salleh, and H. Ombao, “Short-segment heart sound classification using an ensemble of deep convolutional neural networks,” in ICASSP 2019-2019 IEEE International Conference onAcoustics, Speech and Signal Processing (ICASSP). IEEE, 2019, pp.1318–1322.
[15] Z. Ren, N. Cummins, V . Pandit, J. Han, K. Qian, and B. Schuller,“Learning image-based representations for heart sound classification,” inProceedings of the 2018 International Conference on Digital Health, 2018,pp. 143–147.
[16] E. Kay and A. Agarwal, “Dropconnected neural networks trained on time-frequency and inter-beat features for classifying heart sounds,” Physiol.Meas., vol. 38, no. 8, p. 1645, 2017.
[17] B. M. Whitaker, P . B. Suresha, C. Liu, G. D. Clifford, and D. V . Anderson,“Combining sparse coding and time-domain features for heart soundclassification,” Physiol. Meas., vol. 38, no. 8, p. 1701, 2017.
[18] M. Zabihi, A. B. Rad, S. Kiranyaz, M. Gabbouj, and A. K. Katsaggelos,“Heart sound anomaly and quality detection using ensemble of neural
networks without segmentation,” in Proc. IEEE CinC. IEEE, 2016, pp.613–616.
[19] C. Potes, S. Parvaneh, A. Rahman, and B. Conroy, “Ensemble of feature-based and deep learning-based classifiers for detection of abnormal heartsounds,” in Proc. IEEE CinC. IEEE, 2016, pp. 621–624.
[20] A. I. Humayun, S. Ghaffarzadegan, M. I. Ansari, Z. Feng, and T. Hasan,“Towards domain invariant heart sound abnormality detection using learnable filterbanks,” IEEE J. Biomed. Health Inform., 2020.
[21] V . Maknickas and A. Maknickas, “Recognition of normal–abnormalphonocardiographic signals using deep convolutional neural networks and
mel-frequency spectral coefficients,” Physiol. Meas., vol. 38, no. 8, p.1671, 2017.
[22] A. I. Humayun, S. Ghaffarzadegan, Z. Feng, and T. Hasan, “Learningfront-end filter-bank parameters using convolutional neural networks forabnormal heart sound detection,” in 2018 40th Annual InternationalConference of the IEEE Engineering in Medicine and Biology Society(EMBC). IEEE, 2018, pp. 1408–1411.
[23] A. I. Humayun, M. Khan, S. Ghaffarzadegan, Z. Feng, T. Hasan et al., “Anensemble of transfer, semi-supervised and supervised learning methods forpathological heart sound classification,” arXiv preprint arXiv:1806.06506,2018.
[24] T.-c. I. Yang and H. Hsieh, “Classification of acoustic physiological signalsbased on deep learning neural networks with augmented features,” in Proc.IEEE CinC. IEEE, 2016, pp. 569–572.
[25] M. Deng, T. Meng, J. Cao, S. Wang, J. Zhang, and H. Fan, “Heart soundclassification based on improved mfcc features and convolutional recurrentneural networks,” Neural Networks, vol. 130, pp. 22–32, 2020.
[26] A. V . Oppenheim and R. W. Schafer, “From frequency to quefrency: Ahistory of the cepstrum,” IEEE Signal Process. Mag., vol. 21, no. 5,pp.95–106, 2004.
[27] A. Acero, L. Deng, T. Kristjansson, and J. Zhang, “Hmm adaptation usingvector taylor series for noisy speech recognition,” in Proc. ISCA ICSLP,2000.
[28] V . Stouten, H. V an Hamme, and P . Wambacq, “Joint removal of additiveand convolutional noise with model-based feature enhancement,” in 2004 IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 1. IEEE, 2004, pp. I–949.
[29] Y . Gong, “A method of joint compensation of additive and convolutive distortions for speaker-independent speech recognition,” IEEE transactions on speech and audio processing, vol. 13, no. 5, pp. 975–983, 2005.
[30] J. R. Deller, J. G. Proakis, and J. H. Hansen, Discrete-time processing ofspeech signals. IEEE, 2000.
[31] F.-H. Liu, R. M. Stern, X. Huang, and A. Acero, “Efficient cepstralnormalization for robust speech recognition,” in HUMAN LANGUAGE
TECHNOLOGY: Proceedings of a Workshop Held at Plainsboro, NewJersey, March 21-24, 1993, 1993.
[32] R. Hyder, S. Ghaffarzadegan, Z. Feng, J. H. Hansen, and T. Hasan,“Acoustic scene classification using a cnn-supervector system trained withauditory and spectrogram image features.” in Interspeech, 2017, pp. 3073–3077.
[33] T. Tran, T. Pham, G. Carneiro, L. Palmer, and I. Reid, “A bayesian dataaugmentation approach for learning deep models,” in Advances in neuralinformation processing systems, 2017, pp. 2797–2806.
[34] A. Mikołajczyk and M. Grochowski, “Data augmentation for improvingdeep learning in image classification problem,” in Proc. IEEE IIPhDW.
IEEE, 2018, pp. 117–122.
[35] D. B. Springer, L. Tarassenko, and G. D. Clifford, “Logistic regression-hsmm-based heart sound segmentation,” IEEE. Trans. Biomed. Eng.,
vol. 63, no. 4, pp. 822–832, 2015.
[36] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for imagerecognition,” in Proc. IEEE CVPR, 2016, pp. 770–778.
[37] X. Glorot and Y . Bengio, “Understanding the difficulty of training deepfeedforward neural networks,” in Proc. AiSTATS, 2010, pp. 249–256.
[38] Y . E. Nesterov, “A method for solving the convex programming problemwith convergence rate o (1/kˆ 2),” in Dokl. akad. nauk Sssr, vol. 269, 1983,pp. 543–547.
[39] L. N. Smith, “Cyclical learning rates for training neural networks,” in Proc.IEEE W ACV. IEEE, 2017, pp. 464–472.
[40] J. H. Hansen and T. Hasan, “Speaker recognition by machines and humans:A tutorial review,” IEEE Signal Process. Mag., vol. 32, no. 6, pp.74–99,2015.
[41] T. G. Dietterich, “Approximate statistical tests for comparing supervisedclassification learning algorithms,” Neural Comp., vol. 10, no. 7, pp. 1895–1923, 1998.
[42] V . Rennoll, I. M. McLane, D. Emmanouilidou, J. West, and M. Elhilali,“Electronic stethoscope filtering mimics the perceived sound characteristics of acoustic stethoscope,” IEEE Journal of Biomedical and Health Informatics, 2020.

推荐阅读