首页 > 解决方案 > 外语语音转文本和文本转语音

问题描述

我正在考虑将我为 iPhone 和 Android 构建的语音 2D HTML5 网页游戏移植到 Unity2D。我是一名全栈 Web 开发人员,而不是 Unity 开发人员,因此代理机构会帮助我构建 Unity 应用程序。在与他们签约之前,我需要确保提供普通话西班牙语英语Speech to Text (STT)两种语言的服务,否则我会在前期浪费很多钱。Text to Speech (TTS)

对于 Web,可通过浏览器轻松访问Webkit Speech(STT DocsSTT DemoTTS DocsTTS Demo )。我发现 IBM Watson 有一个可用的 API,并且有STTTTS的演示,我发现他们在这里有一个Unity SDK,但我没有测试 Unity SDK 的技能。

我正在寻找该机构可用于这三种外语的出色 STT 和 TTS API 的指导。

  1. Unity SDK 是否支持前端 STT 和 TTS 音频流?STT 需要捕获用户的语音输入并快速转录。同样,TTS 需要允许用户将鼠标悬停在目标语言单词上并收听接近母语的发音。
  2. 它是否同时提供西班牙语、普通话和英语的 STT 和 TTS?
  3. 还有哪些其他 NLP API 可以满足我的要求?

抱歉,我对 Unity/电话开发完全陌生,所以这里的任何指导都会非常有帮助。如果不存在满足这些要求的 API,那么 Unity 将不适用于我的应用程序,因为 STT 和 TTS 至关重要。

标签: c#unity3dspeech-recognition

解决方案


总体而言,Unity 中的实时音频录制很糟糕,该系统根本不是为连续录制音频而设计的。您可以使用AudioSource录制剪辑,但这是固定长度的剪辑,而不是流式解决方案。

对于流式传输,您可以使用AudioFilterRead获取音频,但它并不是真正的录制 API,它更多的是用于效果。对于录制,它具有不可预测的延迟,并且还会显着减慢 UI。

结果,您只能进行一键通的交互,而不是实时交互。

如果您有其他选择,最好也考虑一下。例如,您可以考虑原生应用程序。


推荐阅读