首页 > 解决方案 > 是否有用于语音到文本分类的扬声器错误率算法?

问题描述

一些语音到文本服务,如 Google Speech-to-Text,通过分类来提供说话者区分,该分类尝试识别和分离单个音频记录中的多个说话者。当多个发言者在会议室中共享一个麦克风时,通常需要这样做。

是否有算法和实现来计算说话人分离的正确性?

这将与经常用于测试基线转录正确性的单词错误率结合使用。

标签: speech-to-texttranscription

解决方案


常用的方法似乎是NIST在 NIST-RT 项目中定义的分类错误率 (DER)。

较新的评估指标是DIHARD II: The Second DIHARD Speech Diarization Challenge中引入的 Jaccard 错误率 (JER) 。

测量这些的两个项目包括:

这些论文中引用了 DER:


推荐阅读