audio - 我想知道说话人分类的“d-vector”
问题描述
当将分段语音音频添加到 DNN 模型时,我了解到从最后一个隐藏层提取的特征的平均值是“d-vector”。在那种情况下,我想知道即使我在没有学习的情况下放置说话人的声音,是否可以提取说话人的 d-vector。通过使用这个,当一个多人说出的语音文件的分段值被放入(使用mel-filterbank或MFCC)时,我们是否可以通过对提取的d向量值进行聚类来区分说话者,如前所述?
解决方案
要回答您的问题:
训练模型后,您可以
d-vector
简单地通过网络前向传播输入向量来获得。通常您会查看 ANN 的输出(最后一层),但您同样可以从倒数第二d-vector
层(the )检索值。是的,您可以用 来区分扬声器
d-vector
,因为它以某种方式产生音频信号的高级嵌入,这将为不同的人提供独特的功能。参见例如这篇论文。
推荐阅读
- azure-devops - 如何过滤掉 Power BI 中另一个表中已经存在的表中的行?
- flutter - 如何在颤动中使用 list.view builder 构建嵌套扩展图块?
- c# - C# LiteDB LiteCollection.FindOne 返回错误值
- c# - 如何通过 API 将文件上传到 Azure DataLake?
- python - 如何解决python中的index not found错误
- javascript - email-templates 图片在预览中显示,但不在 Gmail 中
- sendgrid-templates - SendGrid 动态模板
- networking - 如何验证给定子网掩码范围内的ip?
- python - Django - 是否可以创建基于事件/触发器的调度程序?
- c# - 进入 HttpRequestMessage 或 IHttpClientFactory 设置或连接代理