google-api - 不能让谷歌 API 处理 WAV 音频
问题描述
我想从电话中转录一个简单的音频。
我目前正在使用语音 API
const speech = require('@google-cloud/speech').v1p1beta1;
关于我要转录的音频的信息:
- 编解码器:PCM MU-LAW (mlaw)
- 声道:立体声
- 采样率:8000
- 每个样本的位数:16
- 持续时间:35 秒
我正在为 API 使用这个配置:
const requestGoogle = {
audio: {
uri: [ my audio location ]
},
config: {
audioChannelCount: 2,
enableSeparateRecognitionPerChannel: true,
enableAutomaticPunctuation: true,
languageCode,
model: 'default',
useEnhanced: true,
interactionType: 'PHONE_CALL',
encoding: 'MULAW',
microphoneDistance: 'NEARFIELD',
recordingDeviceType: 'PHONE_LINE',
}
};
当向 API 请求时,我收到 400 响应状态和错误消息:
{
“错误”:“3 INVALID_ARGUMENT:无效识别‘配置’:错误通道计数。”
}
如果有人可以帮助我,那就太棒了,谢谢!
解决方案
转换编解码器数据 - 从编解码器:PCM MU-LAW (mlaw) - 到 - 编解码器:PCM - 使用 G711 解码器。
使用频道:单声道。
推荐阅读
- php - 未定义的变量项目 laravel,我试图从数据库中读取数据
- r - R group_by - 如何按 orderID 分组?
- camera-calibration - 如图所示,如何校准完全面向彼此的相机?
- java - 如何有条件地链接几个改造调用?
- python - 为什么这个合并排序实现没有给出正确的答案?
- spring-boot - IntelliJ Idea + 无法自动装配。找不到类型的 bean
- vue.js - Vue-multiselect - 如何在占位符中插入 html 代码?
- java - H2事务总是自动提交为什么?
- mysql - 如果“IN”是多个“OR”的快捷方式,那么 MySQL 中多个“AND”的快捷方式是什么?
- c# - 创建对象并将其传递到数据库后未显示 ID 变量