audio - 我想知道说话人分类的“d-vector”

问题描述

当将分段语音音频添加到 DNN 模型时，我了解到从最后一个隐藏层提取的特征的平均值是“d-vector”。在那种情况下，我想知道即使我在没有学习的情况下放置说话人的声音，是否可以提取说话人的 d-vector。通过使用这个，当一个多人说出的语音文件的分段值被放入（使用mel-filterbank或MFCC）时，我们是否可以通过对提取的d向量值进行聚类来区分说话者，如前所述？

标签： audiodeep-learningartificial-intelligencelstmmfcc

要回答您的问题：

训练模型后，您可以d-vector简单地通过网络前向传播输入向量来获得。通常您会查看 ANN 的输出（最后一层），但您同样可以从倒数第二d-vector层（the ）检索值。
是的，您可以用来区分扬声器d-vector，因为它以某种方式产生音频信号的高级嵌入，这将为不同的人提供独特的功能。参见例如这篇论文。

audio - 我想知道说话人分类的“d-vector”

问题描述

解决方案

推荐阅读