首页 > 解决方案 > 学习识别手写数字的图像和录音是指相同的数字还是不同的数字

问题描述

我有两个要比较的数据集,1)手写数字 0-9 作为 784 维向量,28x28 像素灰度图像,以及 2)阿拉伯数字的口语名称(“零”,“一”等)的录音.) 作为一组预提取的音频特征 MFCC 给出。每个记录具有可变长度,具有形状数组 (N, 13),N = 帧数,13 = MFCC 特征数。

为了训练我有几个数据集,包括:

在 match_train 的数组中,索引 j 处有一个值,它指定来自written_train 的第 j 行的图像和来自spoken_train 的第 j 行的音频是否引用相同的数字。

目标是获得尽可能低的错误率准确度。

我应该如何解决这个问题?

标签: pythonmachine-learningdeep-learning

解决方案


推荐阅读