首页 > 解决方案 > ibm-cloud speech-to-text:是否可以为自定义词汇指定音素?

问题描述

我们需要使用大量已经音位转录的自定义词汇表构建一个自定义模型,但是当前用于指定自定义单词的 API 没有用于指定音位字符串而不是手动生成的临时“sounds_like”正字法字符串的选项。由于我们还没有找到任何可靠的工具来按规则从音素字符串生成等效的“听起来像”字符串,这对我们能够成功使用 IBM 语音到文本引擎来说是一个真正的障碍。

是否有公认的语音/音位字母表和可用的 API 机制来指定音素字符串而不是另一种正字法,以指示通过 IBM 云语音到文本 API 将自定义单词添加到自定义模型时的发音?(即类似于 IPA 以及在 IBM 的文本转语音 API 中使用它的机制?)

(或者,IBM 或那里的任何人是否有一个很好的工具可以将音素序列转换为正字法,保证被他们的 ASR 引擎重新转换回相同的音素字符串?)

标签: ibm-cloudspeech-to-textvocabularyphoneme

解决方案


通过技术支持,我发现 API 中目前有一个“dark/undocumented”功能,通过该功能,可以通过使用以下格式将音素字符串包含在“sounds_like”规范中来指定音素字符串:“”。

例如,这是一个 cURL 示例,为单词“challah”添加发音“hɑː.lə”:

curl -u $CREDS  -X PUT --header "Content-Type:application/json"  --data "{\"sounds_like\":[\"<phoneme hɑː.lə>\"]}" https://stream.watsonplatform.net/speech-to-text/api/v1/customizations/$custID/words/challah

在构建 CustomWord 对象并通过 API 提交它们时,也可以使用这种格式。

IPA 符号的可接受范围似乎与其 text-to-speech API 相同,可在此处找到: https ://cloud.ibm.com/docs/text-to-speech?topic=text- to-speech-us符号


推荐阅读