python - 学习识别手写数字的图像和录音是指相同的数字还是不同的数字
问题描述
我有两个要比较的数据集,1)手写数字 0-9 作为 784 维向量,28x28 像素灰度图像,以及 2)阿拉伯数字的口语名称(“零”,“一”等)的录音.) 作为一组预提取的音频特征 MFCC 给出。每个记录具有可变长度,具有形状数组 (N, 13),N = 帧数,13 = MFCC 特征数。
为了训练我有几个数据集,包括:
- written_train.npy:包含 45,000 行和 784 列的数组
- written_test.npy:包含 15,000 行和 784 列的数组
- speak_train.npy:包含 45,000 行的数组。每行是一个形状对象 (N, 13)
- speak_test.npy:包含 15,000 行的数组。每行是一个形状对象 (N, 13)
- match_train.npy:具有 45,000 个布尔值(假或真)的数组
在 match_train 的数组中,索引 j 处有一个值,它指定来自written_train 的第 j 行的图像和来自spoken_train 的第 j 行的音频是否引用相同的数字。
目标是获得尽可能低的错误率准确度。
我应该如何解决这个问题?
解决方案
推荐阅读
- listview - 如何删除 Flutter ListView 中的剪辑?
- r - R:如何将相同的变量(行号)添加到列表中的每个数据框?
- go - “函数体外的非声明语句”错误golang
- python - 将 ListA 元素与部分匹配的 ListB 元素连接起来
- node.js - MongoError:E11000 重复键错误集合:timeformationBD.formations 索引:description_1 重复键:{:null}
- c# - Intent ActionCall 没有以 xamarin 形式拨打电话
- node.js - Firebase Cloud Functions - 无法读取未定义的属性“forEach”
- html - 在 Angular 2/4 中实现自定义下拉菜单
- php - 使用 Carbon 在 laravel 中将日期转换为毫秒
- javascript - 如何在 JavaScript 中将 arrayOfObject 转换为 arrayOfArray 转置?