首页 > 技术文章 > 论文翻译——2020_Rethinking CNN Models for Audio Classification

yangzhengjie 2021-01-16 15:19 原文

对CNN音频分类模型的再思考

作者:Kamalesh Palanisamy, Dipika Singhania and Angela Yao

代码地址:https://github.com/kamalesh0406/Audio-Classification

摘要:本文证明了ImageNet预训练的标准深度CNN模型可以作为音频分类的强基线网络。尽管音频频谱图和标准ImageNet图像样本之间存在显著差异,但传递学习假设仍然成立。为了理解是什么使得ImageNet预训练模型能够学习有用的音频表示,我们系统地研究了预训练权重对于学习光谱图有多大的用处。我们表明:(1)对于给定的标准模型,使用预训练权重比使用随机初始化的权重要好;(2)通过可视化梯度,定性地分析了CNNs从光谱图中所学到的知识。此外,我们还发现,即使我们使用预先训练好的模型权值进行初始化,在同一模型的不同输出运行中,性能仍然存在差异。这种性能差异是由于线性分类层的随机初始化和多次运行中的随机小批量排序造成的。这将带来显著的多样性,以建立更强大的集合模型,并全面提高精度。ImageNet预训练DenseNet的集成在ESC-50数据集上实现了92.89%的验证精度,在UrbanSound8K数据集上实现了87.42%的验证精度,这两个数据集都是目前最先进的数据集。

1 介绍

要为音频任务建立一个模型,第一步是决定对数据使用何种表示。我们可以使用原始音频波形[1]、[2]或类似音频的二维表示图[3]、[4]、[5]建立模型。光谱图最近越来越流行,因为它们与卷积神经网络(CNN)配合得很好[3],[6]。然而,CNN模型是针对自然图像建立的,由于自然图像包含了空间和时间信息,二维光谱图与自然图像不同。然而,光谱图包含一个时间维度,它使它们成为连续的数据。因此,建议对原有的CNN结构进行修改。一些人创建了只沿一个方向移动的内核来捕获时态数据[7]。其他增加的RNN结构[8]、[9]、[10]或注意[11]、[12]或CNN和RNN的组合[13]、[14]、[5],以改进对数据的顺序理解。

2014年,[15]表明,我们可以将这些光谱图视为图像,并使用在ImageNet[17]上预训练的AlexNet[16]等标准架构进行音频分类任务。AlexNet模型在当时的SOTA的GTZAN音乐流派分类数据集上达到了78%。然而,尽管在未来的几年中,从AlexNet到ResNet、Inception、DenseNet的标准CNN架构有了改进,但是还没有将这些经过预训练的ImageNet模型用于音频任务的工作。

大部分的工作都将重点转移到构建更适合音频数据的模型上。有些人通过使用多个网络学习数据的不同表示方式(如原始音频波形、频谱图、MFCC等),使整个预处理流程复杂化。然后将这些多个网络的输出特征进行聚合,以做出决策。其他论文试图将重点放在构建定制的CNN模型上[1]、[3]、[6]、[2]/RNNs[8]、[9]、[10]/CRNNs[13]、[14]、[5]。在大型音频数据集(如AudioSet[20]或百万首歌曲数据集[21])上预先训练的模型也被建立起来。然而,人们却忽略了一个强大的ImageNet预训练模型基线来对比定制模型。

在本文中,我们表明,通过使用标准体系结构,如Inception[22]、ResNet[23]、DenseNet[24],在ImageNet上进行预训练,以及一组输入特征,如Melspectrograms,我们可以在各种数据集(如ESC-50[25]、UrbanSound8k[26])上获得最先进的结果,并在GTZAN数据集上达到90%以上的准确率。

本文的主要贡献有:

1)针对音频数据集的ImageNet预训练模型可以用来获得最先进的结果,因此可以作为一个强大的基线,需要最少的特征和模型设计。我们展示了单个超参数在所有数据集上的作用。

2) 我们发现,用于分析CNN在不同图像任务之间转移学习的各种方法[27],[28]似乎适用于图像和光谱图之间的转移学习。

3) 我们使用基于积分梯度的定性结果来理解CNN学习光谱图的整个形状。

2  相关工作

A 音频分类

基于CNN的模型已经被用于从音乐类型分类[29]、[30]、[31]、环境声音分类[32][33][34]到音频生成[35][36]的各种任务,为了处理原始音频波形,已经开发了使用一维卷积的各种模型,EnvNet[37]和Sample CNN[1]是使用原始音频作为输入的少数模型的示例。然而,大多数的SOTA结果都是通过在光谱图上使用CNNs获得的。这些模型中的大多数都使用多个模型来复杂化设计,这些模型采用不同的输入,这些输入的输出被聚合起来进行预测。例如,[18]使用了三个网络来操作原始音频、频谱图和delta STFT系数;[38]使用了两个网络,其中mel频谱图和mfcc作为两个网络的输入。然而,我们表明,用简单的mel谱图可以达到最先进的性能。

B 迁移学习

迁移学习是将一个特定任务的训练模型和大量的数据扩展到另一个任务中,根据任务的先验知识提取新任务的有用特征的方法。近年来,在像ImageNet这样的大型语料库上训练的用于分类的深层模型被广泛用于图像分割[39]、[40]、医学图像分析[41]、[42]等任务的转移学习。在视频模型中,在UCF-101[44]上从头开始训练的C3D[43]达到88%,而在ImageNet和dynamics数据集中的预训练达到98%。预先训练的重量和从头开始的训练在性能上的巨大差异启发我们研究音频分类的差异。此外,我们还研究了为什么ImageNet预训练图像模型对音频分类有用的细节。

C 用于音频分类的迁移学习

音频分类中的迁移学习主要集中在对大量音频数据集(如AudioSet,Million Songs)进行预训练。[45]在百万首歌曲数据集上对一个简单的CNN网络进行预训练,发现他们可以对这些网络进行微调,以执行各种任务,如音频事件分类、情感预测;[46]尝试使用VGG、Inception和ResNet等大规模模型对音频集进行音频分类。然而,他们在AudioSet上训练模型(也称为VGGish),AudioSet用于许多音频迁移学习应用[47],[48]。与之不同的是,我们研究了像ImageNet这样的海量图像数据集的迁移学习。

D从图像分类到音频分类

基于已有工作的音频迁移学习主要集中在音频数据集上。使用的模型非常大,使用的特征也变得越来越复杂。如引言所述[15]是最早使用ImageNet上预训练模型进行音频分类的论文之一[49],[50],[32]是近年来使用ImageNet上预训练模型进行音频任务的少数作品之一。然而,这些论文并没有充分认识到这些模型的潜力,因为他们对设计进行了多次修改。在本文中,我们证明了使用一个模型和一组输入特征,我们能够在各种任务上实现SOTA性能,从而降低了开发音频分类模型的时间和空间复杂性。

3 系统和模型的详细信息

A 数据集

我们在以下数据集上测试了这些模型:ESC-50、UrbanSound8K和GTZAN数据集。

1) ESC-50:环境声音分类(ESC50)[25]数据集由2000个片段组成,每个片段的长度为5s,属于50个类别。这些片段以44.1kHz的均匀频率进行采样。数据集被正式划分为五个部分,并通过对所有部分的交叉验证来计算精确度。ESC-50由环境声音组成,从鸟叫声到汽车喇叭声。

2) UrbanSound8k:UrbanSound8k[26]数据集包含8732个剪辑,属于10类不同的城市声音。每个音频片段的长度<=4s,采样率从16kHz到44.1kHz不等。我们对所有音频片段重新采样,采样率为22.5kHz。将数据集正式拆分为10个折叠,并对这10个折叠执行交叉验证。

3) GTZAN数据集:GTZAN数据集1包含1000个音乐片段,每个长度为30秒。有10个不同的流派类别。音乐片段的采样率为22.5kHz。数据集没有正式的培训和验证分离,因此我们使用20%的原始数据进行验证,每个类的样本数相等,其余数据用于培训。

B 数据预处理

我们在ESC-50数据集上进行了不同表征的实验,如对数谱图、对数谱图、MFCCs、伽玛酮谱图。我们使用了一个简单的基于CNN的架构,类似于SoundNet的8层模型[33],作为实验的基线。基于与文献[51]一致的结果,我们发现对数谱图是我们特定问题的最佳特征表示。基于CNN的标准模型,如Resnet、Densenet、Inception,使用具有三个通道的图像作为输入。我们需要将mel光谱图转换为三通道输入。我们测试了两种可以给出输入的方法:

1) 使用25ms的窗口大小和10ms的跃点长度计算的单个Mel谱图在三个通道上复制。

2)在每个通道上分别使用{25ms,10ms},{50ms,25ms}和{100ms,50ms}的不同窗口大小和跃点长度计算三通道Mel谱图。不同的窗口大小和跳长确保网络在每个信道上具有不同级别的频率和时间信息。

基于基线模型实验,我们发现在每个信道中使用不同窗口大小和跳长的mel谱图可以获得更好的性能。这些光谱图是使用128个mel箱获得的,然后进行对数标度。由于我们使用了不同的窗口大小,所有的光谱图都被重塑成一个共同的形状。对于ESC50和UrbanSound8K,我们使用大小输入(128,250),而对于GTZAN,我们使用大小输入(128,1500)。我们对ESC-50数据集使用了标准的数据扩充技术,如时间拉伸和音高变换[52]。数据预处理是使用Librosa进行的[53]。

C 模型

我们使用了三个在ImageNet上训练的标准模型来解决我们的问题。模型为:

1)初始层[22]:初始层是所有层的组合,即1x1卷积层、3x3卷积层、5x5卷积层,其输出滤波器组串联成单个输出向量,形成下一级的输入。一个典型的初始网络由几个初始层相互叠加而成,偶尔会有最大池层,步长为2,以将网格分辨率减半。

2) ResNet[23]:ResNet由几个相互叠加的剩余块组成。剩余块具有两个3x3卷积层,具有相同数量的输出信道。每个卷积层后面是一个批处理规范化层和一个ReLU激活函数。添加了一个跳过连接,跳过这两个卷积操作,并在最终ReLU激活函数之前直接添加输入。跳过连接的目的是执行身份映射。

3) DenseNet[24]:密集卷积网络(DenseNet),以前馈方式将每一层连接到每一层。对于每一层,所有前一层的特征图被用作输入,其自身的特征图被用作所有后续层的输入。传统的L层卷积网络每层与下一层之间有L个连接,稠密网络有L(L+1)/2个直接连接。

 

图1:DenseNet体系结构:每个密集块由一定数量的卷积层组成,这些卷积层的输入由块中所有先前层的特征组成。我们使用densenet201架构,它在每个块中分别由{6,12,48,32}卷积层组成

 

D 深度集成

我们训练M={5}独立模型来预测音频分类分数,使用与基线模型相同的架构、超参数设置和训练过程。在测试时,集合预测是这些M个单独训练的模型的软最大输出的平均值,以评估最终的精度。由于模型初始化和小批量排序的不同[54]、[55]、[56],独立训练的相同模型在集合中产生多样性,从而导致不同的局部最优解。我们注意到,尽管我们使用预先训练好的权值来初始化卷积网络,但线性分类层是在不同的模型运行中随机初始化的。

集成模型可以提高预测性能。在如何将多样性添加到集合模型的方法上存在差异。[57],[58]侧重于通过使用不同的输入样本和不同的基线模型来增加多样性。我们的工作与以前的工作不同,因为我们关注最近的发现[54],[55],即局部最小值的数目随着神经网络中使用的参数的数目呈指数增长。因此,在不增加输入样本或基础模型结构的任何多样性的情况下,两个相同的神经网络,具有相同的输入,以不同的初始化和小批量排序进行优化,收敛到不同的解。[54]我们对标准图像数据集进行了改进,重新建立了其在音频数据集的深层模型中的使用。

4 实验

在本节中,我们将根据所进行的实验来评估我们的模型。我们将评估预训练权重的有效性,深度集成的有效性,并将我们的方法与SOTA模型进行比较。

A 训练模型

使用ray tune库提供的网格搜索技术搜索最优超参数[59]。我们发现训练所有模型的最佳搜索值的学习率为1e−4,权重衰减为1e−3。我们使用了批量大小(batch size)为32的Adam优化器。所有的模型都使用一个nvidiartx2080gpu进行训练。代码和检查点在GitHub上可用。

B ImageNet预训练模型与从头开始训练模型的比较

1) 设置:我们进行实验来了解预训练模型是否比随机初始化模型更好。ResNet、Inception和DenseNet模型均使用预训练权重进行初始化,并在ESC50、GTZAN和UrbanSound8K上进行微调。学习率每30个时相下降10倍。对于随机初始化的模型,ResNet、Inception和DenseNet是在ESC-50、GTZAN和UrbanSound8K上从头开始训练的。根据小数据区的从头开始训练模型[27],我们对这些模型进行了450个epochs的训练,在300和350个epochs时,学习率降低了10倍。

2) 结果:实验结果如表1所示。通过使用预训练权重,我们可以看到ESC-50提高了20%,UrbanSound8K提高了10%,GTZAN数据集提高了3%以上。我们将结果的差异归因于这些小数据集可用的数据样本不足,这一点可以在其他论文中看到[43]。

 

 

 

 表1:使用预训练权重和随机权重时的精度比较

 

3)预训练权值分析:为了了解ImageNet预训练权值中有多少对音频相关任务有用,我们进行了以下实验。

(1) 设置所有迁移学习实验都是在ESC50数据集上使用DenseNet架构进行的。具体的实验细节如下:

    a 权值变化:在权值变化实验中,我们计算了微调前后预训练网络输出特征之间的SVCCA[61]。SVCCA通过奇异向量分解(SVD)给出两个神经元激活之间的相关分数。两个输出特征之间的相关性越高,层的权重就越相似。在我们的实验中,我们使用SVCCA来测量经过微调的预训练网络的权值变化。

    b 权值融合:在权值融合实验中,我们用预先训练好的权值初始化网络的一部分,用随机初始化的权值初始化网络的其余部分。然后对整个网络进行微调。

    c 权值冻结:在权值冻结实验中,我们冻结网络一部分的权值,并微调网络的其余部分。

    d 模型切断:在模型切断实验中,我们移除部分网络,特别是Block4和Block3,观察网络性能的变化。

    e 特征可视化:可视化实验包括试图解释网络从光谱图中学到了什么。我们使用积分梯度[62]方法,该方法对网络的梯度与输入进行积分,并尝试重新生成有助于网络做出决策的输入部分。

(2) 结果:权值变化实验的结果如图2a所示。预训练模型显示在ESC-50上微调前后初始层的特征高度相关。这表明网络的初始层在微调后变化不大。权重融合实验的结果如图2b所示。我们可以看到,对Block3使用预训练权重对模型的精度有很大影响。当Block3使用预先训练好的权值进行初始化时,模型的验证精度可以达到90%。在Block3之外,预先训练的重量对结果的改善没有帮助。

权值变化和权值融合实验的结果表明,预训练的知识在网络的初始部分是非常重要的。这是因为大量的预训练知识仍然存在于网络中,这表明光谱图的处理方式与预训练模型的图像类似。图2c所示的权重冻结实验的结果也表明Block3对网络非常重要。冻结前两个块时,网络精度仅下降2-3%,而冻结块3的权重时,网络精度下降近10%。即使在模型截流实验中,当删除Block4时,网络的精确度仍然保持在90%。然而,当我们同时移除Block3和Block4时,验证准确率下降到85%左右。

从这些实验中我们可以进一步指出Block3对于网络学习音频数据非常重要。这些结果表明,即使我们考虑两个数据完全不同的领域之间的迁移学习,文献[27]的结论仍然成立。[27]的结果表明,网络的初始层包含更多的通用过滤器,而网络中间的层变化最大,因为它们是特定于任务的。这可以在我们的研究中观察到,在我们的研究中,块3似乎对模型学习特征非常重要。

 

图2。对预训练模型的分析:(a)CCA相似性得分表明,预训练模型的权值在微调前后具有很高的相关性。对于随机初始化的模型,微调前后权值之间的相关性较低(b)该图显示了使用预训练权值初始化网络不同部分和使用随机权值初始化网络其余部分的验证精度(c)该图显示了冻结预训练模型中部分权值的结果并对模型的其余部分进行微调

 

模型的综合梯度可视化如图3所示。我们可以看到网络集中在光谱图中能量分布高的区域。它试图学习这些区域周围的边界,就像它学习如何检测图像中对象周围的边缘一样。由于这些边界对于每个声音都是唯一的,因此网络学习如何很好地对它们进行分类。因此,ImageNet预训练模型是一种很好的边缘检测器,可以很容易地扩展到具有足够微调的谱图。

 

图3:观察数据的综合梯度第一列显示作为网络输入的数据,第二列显示输入的相应综合梯度。积分梯度清楚地告诉我们,模型聚焦于声音事件发生的区域,这是因为模型检测到这些事件周围的边缘,并且由于这些声音中的每一个都有一个独特的形状,所以模型能够很好地检测到它们

 

C 深度集成

1) 设置:我们为线性层和不同的小批量订购训练5个不同初始化的独立模型。然后取这五个模型的softmax输出的平均值来产生集合输出。使用这些集合输出计算精度。

2) 结果:在单个模型上使用ensembling的结果如表2所示。基于这些结果,我们可以看到,通过使用集合,我们能够改进单个模型的预测。对于ESC-50和UrbanSound8k,性能提高了∼2%。GTZAN的性能略有下降,因为GTZAN的验证数据仅包含200个样本,因此下降1%表示有2个数据样本被错误预测。

 

表:使用单个模型与集合时的精度比较

 

D 与最新技术的比较

1) 比较方法:在ESC-50和UrbanSound8K上,当前的SOTA模型是[32]。[32]构建了ResNet的修改,并使用ImageNet权重在ESC-50数据集上实现了超过91.5%的准确率,在UrbanSound8K数据集上实现了85.42%的准确率。他们使用的模型还包含了自我注意层,对于他们网络的输入,他们提取了一个频谱图,并将其沿频率轴分割,然后将其作为三通道输入传递给网络。对于UrbanSound8K数据集,我们只将我们的结果与使用数据集中提供的官方拆分的论文进行了比较。GTZAN的SOTA精度为94.5%,达到了[60]。[60]指出,由于数据中的噪声,模型无法在GTZAN数据集上实现大于94.5%的精度。

2) 结果:我们的模型与现有最先进的模型的比较如表三所示。在ESC-50数据集上,DenseNet集成版的验证准确率达到92.8%,在UrbanSound8K数据集上,同一模型的验证准确率达到87.42%,使其成为两个数据集上的当前SOTA模型。对于GTZAN数据集,ResNet的集成版本可以达到91.99%的准确率。

 

表3:三种不同数据集模型的总体结果

 

5 结论

我们提出,通过微调简单的预训练ImageNet模型和一组音频任务的输入特征,我们可以在ESC-50和UrbanSound8K数据集上获得最先进的结果,并在GTZAN数据集上获得良好的性能。我们发现,预训练模型保留了大部分的先验知识,特别是在微调后的初始层。我们还发现,网络的中间层发生了重大变化,使模型适应新的任务。通过使用定性可视化,我们证明了CNN模型学习光谱图中能量分布的边界来分类光谱图。

参考文献

[1] J. Lee, J. Park, K. L. Kim, and J. Nam, “Sample-level deep convolutional neural networks for music auto-tagging using raw waveforms,” arXiv preprint arXiv:1703.01789, 2017.

[2] Z. Zhu, J. H. Engel, and A. Hannun, “Learning multiscale features directly from waveforms,” arXiv preprint arXiv:1603.09509, 2016.

[3] K. Choi, G. Fazekas, and M. Sandler, “Automatic tagging using deep convolutional neural networks,” arXiv preprint arXiv:1606.00298, 2016.

[4] Z. Nasrullah and Y . Zhao, “Music artist classification with convolutional recurrent neural networks,” in 2019 International Joint Conference on Neural Networks (IJCNN). IEEE, 2019, pp. 1–8.

[5] Z. Wang, S. Muknahallipatna, M. Fan, A. Okray, and C. Lan, “Music classification using an improved crnn with multi-directional spatial dependencies in both time and frequency dimensions,” in 2019 International Joint Conference on Neural Networks (IJCNN). IEEE, 2019, pp. 1–8.

[6] S. Dieleman, P . Brakel, and B. Schrauwen, “Audio-based music classification with a pretrained convolutional network,” in ISMIR, 2011.

[7] M.-T. Chen, B.-J. Li, and T.-S. Chi, “Cnn based two-stage multiresolution end-to-end model for singing melody extraction,” in ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019, pp. 1005–1009.

[8] H. Phan, P . Koch, F. Katzberg, M. Maass, R. Mazur, and A. Mertins, “Audio scene classification with deep recurrent neural networks,” arXiv preprint arXiv:1703.04770, 2017.

[9] P . Gimeno, I. Vi˜ nals, A. Ortega, A. Miguel, and E. Lleida, “Multiclass audio segmentation based on recurrent neural networks for broadcast domain data,” EURASIP Journal on Audio, Speech, and Music Processing, vol. 2020, no. 1, pp. 1–19, 2020.

[10] J. Dai, S. Liang, W. Xue, C. Ni, and W. Liu, “Long short-term memory recurrent neural network based segment features for music genre classification,” in 2016 10th International Symposium on Chinese Spoken Language Processing (ISCSLP). IEEE, 2016, pp. 1–5.

[11] Z. Zhang, S. Xu, T. Qiao, S. Zhang, and S. Cao, “Attention based convolutional recurrent neural network for environmental sound classification,” 2019.

[12] H. Wang, Y . Zou, D. Chong, and W. Wang, “Environmental sound classification with parallel temporal-spectral attention,” 2019.

[13] J. Sang, S. Park, and J. Lee, “Convolutional recurrent neural networks for urban sound classification using raw waveforms,” in 2018 26th European Signal Processing Conference (EUSIPCO). IEEE, 2018, pp. 2444– 2448.

[14] K. Choi, G. Fazekas, M. Sandler, and K. Cho, “Convolutional recurrent neural networks for music classification,” in 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2017, pp. 2392–2396.

[15] G. Gwardys and D. M. Grzywczak, “Deep image features in music information retrieval,” International Journal of Electronics and Telecommunications, vol. 60, no. 4, pp. 321–326, 2014.

[16] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classification with deep convolutional neural networks,” in Advances in neural information processing systems, 2012, pp. 1097–1105.

[17] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei, “Imagenet: A large-scale hierarchical image database,” in 2009 IEEE conference on computer vision and pattern recognition. Ieee, 2009, pp. 248–255.

[18] X. Li, V . Chebiyyam, and K. Kirchhoff, “Multi-stream network with temporal attention for environmental sound classification,” 2019.

[19] A. Schindler, T. Lidy, and A. Rauber, “Multi-temporal resolution convolutional neural networks for acoustic scene classification,” arXiv preprint arXiv:1811.04419, 2018.

[20] J. F. Gemmeke, D. P . Ellis, D. Freedman, A. Jansen, W. Lawrence, R. C. Moore, M. Plakal, and M. Ritter, “Audio set: An ontology and humanlabeled dataset for audio events,” in 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2017, pp. 776–780.

[21] T. Bertin-Mahieux, D. P . Ellis, B. Whitman, and P . Lamere, “The million song dataset,” in Proceedings of the 12th International Conference on Music Information Retrieval (ISMIR 2011), 2011.

[22] C. Szegedy, W. Liu, Y . Jia, P . Sermanet, S. Reed, D. Anguelov, D. Erhan, V . V anhoucke, and A. Rabinovich, “Going deeper with convolutions,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 1–9.

[23] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 770–778.

[24] G. Huang, Z. Liu, L. V an Der Maaten, and K. Q. Weinberger, “Densely connected convolutional networks,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 4700–4708.

[25] K. J. Piczak, “ESC: Dataset for Environmental Sound Classification,” in Proceedings of the 23rd Annual ACM Conference on Multimedia. ACM Press, 2015, pp. 1015–1018. [Online]. Available: http://dl.acm. org/citation.cfm?doid=2733373.2806390

[26] J. Salamon, C. Jacoby, and J. P . Bello, “A dataset and taxonomy for urban sound research,” in 22nd ACM International Conference on Multimedia (ACM-MM’14), Orlando, FL, USA, Nov. 2014, pp. 1041–1044.

[27] J. Y osinski, J. Clune, Y . Bengio, and H. Lipson, “How transferable are features in deep neural networks?” in Advances in neural information processing systems, 2014, pp. 3320–3328.

[28] M. Raghu, C. Zhang, J. Kleinberg, and S. Bengio, “Transfusion: Understanding transfer learning for medical imaging,” in Advances in neural information processing systems, 2019, pp. 3347–3357.

[29] M. Dong, “Convolutional neural network achieves human-level accuracy in music genre classification,” 2018.

[30] K. Choi, G. Fazekas, M. Sandler, and K. Cho, “Convolutional recurrent neural networks for music classification,” 2016.

[31] W. Zhang, W. Lei, X. Xu, and X. Xing, “Improved music genre classification with convolutional neural networks,” in Interspeech 2016, 2016, pp. 3304–3308. [Online]. Available: http://dx.doi.org/10.21437/ Interspeech.2016-1236

[32] A. Guzhov, F. Raue, J. Hees, and A. Dengel, “Esresnet: Environmental sound classification based on visual domain models,” 2020.

[33] Y . Aytar, C. V ondrick, and A. Torralba, “Soundnet: Learning sound representations from unlabeled video,” 2016.

[34] F. Demir, D. A. Abdullah, and A. Sengur, “A new deep cnn model for environmental sound classification,” IEEE Access, vol. 8, pp. 66 529– 66 537, 2020.

[35] A. v. d. Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, and K. Kavukcuoglu, “Wavenet: A generative model for raw audio,” arXiv preprint arXiv:1609.03499, 2016.

[36] A. Roberts, J. Engel, C. Raffel, C. Hawthorne, and D. Eck, “A hierarchical latent vector model for learning long-term structure in music,” arXiv preprint arXiv:1803.05428, 2018.

[37] Y . Tokozume and T. Harada, “Learning environmental sounds with end-to-end convolutional neural network,” in 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2017, pp. 2721–2725.

[38] Y . Su, K. Zhang, J. Wang, and K. Madani, “Environment sound classification using a two-stream cnn based on decision-level fusion,” Sensors, vol. 19, no. 7, p. 1733, 2019.

[39] V . Badrinarayanan, A. Kendall, and R. Cipolla, “Segnet: A deep convolutional encoder-decoder architecture for image segmentation,” IEEE transactions on pattern analysis and machine intelligence, vol. 39, no. 12, pp. 2481–2495, 2017.

[40] V . Iglovikov and A. Shvets, “Ternausnet: U-net with vgg11 encoder pre-trained on imagenet for image segmentation,” arXiv preprint arXiv:1801.05746, 2018.

[41] A. Majkowska, S. Mittal, D. F. Steiner, J. J. Reicher, S. M. McKinney, G. E. Duggan, K. Eswaran, P .-H. Cameron Chen, Y . Liu, S. R. Kalidindi, A. Ding, G. S. Corrado, D. Tse, and S. Shetty, “Chest radiograph interpretation with deep learning models: Assessment with radiologistadjudicated reference standards and population-adjusted evaluation,” Radiology, vol. 294, no. 2, pp. 421–431, 2020, pMID: 31793848.[Online].Available:https://doi.org/10.1148/radiol.2019191293

[42] V . Gulshan, L. Peng, M. Coram, M. C. Stumpe, D. Wu, A. Narayanaswamy, S. V enugopalan, K. Widner, T. Madams, J. Cuadros, R. Kim, R. Raman, P . C. Nelson, J. L. Mega, and D. R. Webster, “Development and V alidation of a Deep Learning Algorithm for Detection of Diabetic Retinopathy in Retinal Fundus Photographs,” JAMA, vol. 316, no. 22, pp. 2402–2410, 12 2016. [Online]. Available: https://doi.org/10.1001/jama.2016.17216

[43] J. Carreira and A. Zisserman, “Quo vadis, action recognition? a new model and the kinetics dataset,” in proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 6299–6308.

[44] K. Soomro, A. R. Zamir, and M. Shah, “Ucf101: A dataset of 101 human actions classes from videos in the wild,” arXiv preprint arXiv:1212.0402, 2012.

[45] K. Choi, G. Fazekas, M. Sandler, and K. Cho, “Transfer learning for music classification and regression tasks,” 2017.

[46] S. Hershey, S. Chaudhuri, D. P . W. Ellis, J. F. Gemmeke, A. Jansen, R. C. Moore, M. Plakal, D. Platt, R. A. Saurous, B. Seybold, M. Slaney, R. J. Weiss, and K. Wilson, “Cnn architectures for large-scale audio classification,” 2016. [47] H. Xie and T. Virtanen, “Zero-shot audio classification based on class label embeddings,” in 2019 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA). IEEE, 2019, pp. 264– 267.

[48] L. Shi, K. Du, C. Zhang, H. Ma, and W. Yan, “Lung sound recognition algorithm based on vggish-bigru,” IEEE Access, vol. 7, pp. 139 438– 139 449, 2019.

[49] S. Adapa, “Urban sound tagging using convolutional neural networks,” 2019.

[50] E. Kazakos, A. Nagrani, A. Zisserman, and D. Damen, “Epic-fusion: Audio-visual temporal binding for egocentric action recognition,” in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 5492–5501.

推荐阅读