python - 语音聚类的聚类算法
问题描述
我们可以在语音域中使用的最佳聚类方法是什么?
例如,如果我们有来自多个说话者的语音,我们需要将它们聚集到特定的篮子中,每个篮子对应一个说话者。为此,我们可以使用的最佳聚类算法是什么?
解决方案
我建议RNN-LSTM。有一个很棒的教程解释了使用这个神经网络进行音乐流派分类。我看过它,理解起来非常有指导意义:
- 首先你必须了解你的音频数据(看看这里)。在此链接中,他解释了 MFCC(梅尔频率倒谱系数),它允许您将音频数据的特征提取到频谱图中。在下图中,MFCC 的每个幅度都代表音频的一个特征(例如说话者声音的特征)。
- 然后你必须预处理分类的数据(这里的实际例子)
- 然后训练你的神经网络来预测音频属于哪个扬声器。他在这里展示,但我建议您观看整个系列。我认为这是我所见过的关于这个主题的最好的,提供了解决此类说话人分类问题所需的所有背景、代码和数据集。
希望您喜欢这些链接,它们确实对我有所帮助,并且肯定会解决您的问题。
推荐阅读
- google-apps-script - 在 URL 中使用“导出”查询字符串从 GSheet 创建 PDF
- html - 面临问题引导菜单分区
- mysql - 当我的 column_string 有字母时,如何使用 ORDER BY column_string like column_int?
- python - 如何在 Django 中的模板中渲染?
- latex - 超过 Tex 容量 [字符串数 = 2078043]
- php - 如何在没有输入事件的情况下向 viber 发送消息?
- python-3.x - TypeError:在 SVM 训练期间,只能将 size-1 数组转换为 Python 标量
- amazon-web-services - 错误:连接 ECONNREFUSED 3.15.138.43:8080 我需要 IAM AWS_ACCESS_KEY_ID 吗?
- reactjs - 在 React 中取消 Axios 获取请求
- javascript - 为什么我的排序脚本工作不一致?