python - 从 MNIST 数据集中更改训练集和测试集的大小
问题描述
我正在使用 MNIST 和 Keras 来学习 CNN。我正在下载 Keras API 下的 MNIST 手写数字数据库,如下所示。数据集已经分成 60.000 张图像用于训练和 10.000 张图像用于测试(请参阅数据集 - Keras 文档)。
from keras.datasets import mnist
(x_train, y_train), (x_test, y_test) = mnist.load_data()
如何加入训练集和测试集,然后将它们分成 70% 用于训练和 30% 用于测试?
解决方案
中没有这样的论点mnist.load_data
。相反,您可以通过(或)连接数据,numpy
然后拆分:sklearn
numpy
from keras.datasets import mnist
import numpy as np
from sklearn.model_selection import train_test_split
(x_train, y_train), (x_test, y_test) = mnist.load_data()
x = np.concatenate((x_train, x_test))
y = np.concatenate((y_train, y_test))
train_size = 0.7
x_train, x_test, y_train, y_test = train_test_split(x, y, train_size=train_size, random_seed=2019)
为重现性设置随机种子。
通过numpy
(如果您不使用 sklearn):
# do the same concatenation
np.random.seed(2019)
train_size = 0.7
index = np.random.rand(len(x)) < train_size # boolean index
x_train, x_test = x[index], x[~index] # index and it's negation
y_train, y_test = y[index], y[~index]
您将获得大约所需大小的数组(~210xx 而不是 21000 测试大小)。
mnist.load_data
看起来这个函数的源代码只是从一个已经拆分为 60000 / 10000 测试的 URL 中获取这个数据,所以只有一个连接解决方法。
您还可以从http://yann.lecun.com/exdb/mnist/下载 MNIST 数据集并手动对其进行预处理,然后将其连接起来(根据需要)。但是,据我了解,它被分为 60000 个用于训练的示例和 10000 个用于测试的示例,因为这种拆分用于标准基准测试。
推荐阅读
- sql - SQL 嵌套 IIF 函数
- cassandra - cassandra-reaper:维修一再推迟和卡住
- android - AdMob 永远不会在某些设备上加载
- google-maps - 谷歌静态地图不显示超过 5 个图钉
- sql - SQL从两个表中选择数据并按点排序
- python - ValueError:系列的真值不明确 - 检查数据帧值是否等于字符串时
- javascript - FOR循环:如果我在FOR循环中看到两个initialExpression,js是什么意思?
- java - 跨所有方法的单一连接
- android - 当我处于夜间模式时,背景警报对话框保持白色
- php - 无法使用 PHP-FPM 连接到 MySQL 数据库