首页 > 解决方案 > 语音聚类的聚类算法

问题描述

我们可以在语音域中使用的最佳聚类方法是什么?

例如,如果我们有来自多个说话者的语音,我们需要将它们聚集到特定的篮子中,每个篮子对应一个说话者。为此,我们可以使用的最佳聚类算法是什么?

标签: pythonalgorithmmachine-learningdeep-learningdata-science

解决方案


我建议RNN-LSTM。有一个很棒的教程解释了使用这个神经网络进行音乐流派分类。我看过它,理解起来非常有指导意义:

  1. 首先你必须了解你的音频数据(看看这里)。在此链接中,他解释了 MFCC(梅尔频率倒谱系数),它允许您将音频数据的特征提取到频谱图中。在下图中,MFCC 的每个幅度都代表音频的一个特征(例如说话者声音的特征)。 MFCC 的每个幅度代表音频的一个特征(例如说话者语音的特征)
  2. 然后你必须预处理分类的数据(这里的实际例子)
  3. 然后训练你的神经网络来预测音频属于哪个扬声器。他在这里展示,但我建议您观看整个系列。我认为这是我所见过的关于这个主题的最好的,提供了解决此类说话人分类问题所需的所有背景、代码和数据集。

希望您喜欢这些链接,它们确实对我有所帮助,并且肯定会解决您的问题。


推荐阅读