python - 尝试预测音频时出错:无法计算输出张量(“ctc/ExpandDims_22:0”
问题描述
所以我尝试使用 librispeech 数据集 dev-clean 创建一个语音识别神经网络。我试图将https://github.com/soheil-mpg/Speech-Recognition中的代码转换为 jupyter notebook。
一切似乎都在工作。该模型可以训练并且不会给出任何错误。但是当使用 model.predict() 我得到以下错误:
AssertionError: Could not compute output Tensor("ctc/ExpandDims_22:0", shape=(None, 1), dtype=float32)
我将 Jupyter Notebook 上传到https://github.com/jake-salmone/ASR
代码几乎相同,我唯一改变的是,我不使用 json,而是使用 pandas DataFrame。
解决方案
我找到了答案!:模型的输出维度错误。
当然,ctc 损失应该只在训练期间添加到模型中。
添加 ctc 损失时,它应该只发生在函数的范围内:
model = add_ctc_loss(model)
并且创建一个只在函数范围内增加损失的训练函数不会改变模型。
推荐阅读
- javascript - 如何隐藏 fcm firebase api 密钥?当我使用 react-native
- r - 你能改变R中TukeyHSD的顺序吗
- jquery - jquery/ajax CORS 请求返回一个 GET
- html - 无法让导航栏折叠以将我的主要内容向下推
- java - 如何实现 micronaut 数据“ForUpdate”方法
- datetime - 列日期字段细分
- vue.js - 如何使用 Vue 在组件和单元测试中正确设置数据?
- flutter - 在 Flutter 中更改文件路径后图像未更新
- image - AWS Sagemaker 对原始图像输入的自定义 PyTorch 模型推断
- reactjs - 在反应中 (obj: any) => boolean 做了什么?