python - 音素级发音正确性 Microsoft Speech
问题描述
我正在使用 Microsoft Cognitive Service 的 Pronunciation Assessment 服务(使用 Python API)。目前,我可以根据我在请求中传递的参考文本显示音素细分(以及置信度分数)。我的问题是:有什么方法可以得到它真正所说的音素分解?换句话说.. 有可能得到检测到的音素而不是系统等待根据参考文本识别的音素作为输出?
这描绘了我目前拥有的输出。但是,我不想获得组成单词“不能”的音素,而是想获得输出中传递的单词的音素
{
"Word": "can't",
"AccuracyScore": 85.0,
"ErrorType": "None",
"Offset": 39900000,
"Duration": 6500000,
"Phonemes": [
{
"Duration": 1300000,
"Phoneme": "k",
"AccuracyScore": 89.0,
"Offset": 39900000
},
{
"Duration": 800000,
"Phoneme": "aa",
"AccuracyScore": 86.0,
"Offset": 41300000
},
{
"Duration": 1600000,
"Phoneme": "n",
"AccuracyScore": 74.0,
"Offset": 42200000
},
{
"Duration": 2500000,
"Phoneme": "t",
"AccuracyScore": 89.0,
"Offset": 43900000
}
]
},
提前致谢
解决方案
Go through the document of Pronunciation assessment and the sample code on Github, it seems we can get what the speaker said by print reference_text
.
You can also do it by PronunciationAssessmentConfig.to_json()(pronunciation_config.to_json()
) to get all of the parameters(include the reference_text
in it).
推荐阅读
- java - 使用改造 2 在 android 中显示 RecyclerView 中的数据时出错
- amazon-web-services - AWS Cloud Formation 模板失败,并指定了无效的映射表达式参数
- influxdb - InfluxDB:对具有相同时间戳的行进行分组
- c - 函数地址错误
- ios - UITableView 由于在滚动 tableview 的同时重新加载数据而崩溃
- asp.net-mvc - niginx 反向代理背后的 Oauth 服务器应用程序
- hyperlink - Microsoft Flow 超链接在 Outlook 客户端中不起作用
- android - 如何在network-security-config.xml文件Android中动态添加includeSubdomains
- xpages - 如何将富文本附件从一个文档传输到另一个文档
- netsuite - Suitescript 2.0 Netsuite 中的分页