首页 > 解决方案 > 我想知道说话人分类的“d-vector”

问题描述

当将分段语音音频添加到 DNN 模型时,我了解到从最后一个隐藏层提取的特征的平均值是“d-vector”。在那种情况下,我想知道即使我在没有学习的情况下放置说话人的声音,是否可以提取说话人的 d-vector。通过使用这个,当一个多人说出的语音文件的分段值被放入(使用mel-filterbank或MFCC)时,我们是否可以通过对提取的d向量值进行聚类来区分说话者,如前所述?

标签: audiodeep-learningartificial-intelligencelstmmfcc

解决方案


要回答您的问题:

  1. 训练模型后,您可以d-vector简单地通过网络前向传播输入向量来获得。通常您会查看 ANN 的输出(最后一层),但您同样可以从倒数第二d-vector层(the )检索值。

  2. 是的,您可以用 来区分扬声器d-vector,因为它以某种方式产生音频信号的高级嵌入,这将为不同的人提供独特的功能。参见例如这篇论文


推荐阅读