首页 > 解决方案 > 使用 K 均值进行语音识别

问题描述

我指的是以下代码: https ://github.com/Z3376/Speech-Recognition-with-Transfer-Learning/blob/master/audio_task2.ipynb

我已经建立了用于特征提取的 CNN 模型,并希望使用 K 均值进行聚类。我使用了一个 .wav 文件(呼叫中心代理和客户之间的对话)来测试我的模型并希望对其执行说话人识别。

kmeans = KMeans(3,init='k-means++')
y_kmeans = kmeans.fit_predict(features)

unique,counts = np.unique(y_kmeans,return_counts=True)
print(unique)
print(counts)

它给了我输出:
[0 1 2]
[33 32 74]

[33 32 74] 是什么意思?
我如何了解扬声器?
还请告诉检查准确性的最佳方法

标签: pythonspeech-recognitionk-meansconv-neural-networktransfer-learning

解决方案


推荐阅读