首页 > 解决方案 > 使用 Python 基于现有数据集生成新数据

问题描述

我有一个由 21 条唯一数据记录组成的数据集。为了通过增加每个类的样本数来对某些算法(如 kNN 和 SVM)的性能进行基准测试,我想测试每个类至少有 20 个或更多唯一记录的数据(Predict Conc。是不同的类)。

我不想生成随机数据。我想使用我拥有的 21 个唯一数据记录作为基础数据集,并生成与现有数据相似的剩余数据。

如何使用 Python 做到这一点?

这是示例数据

Index  OD600AV  Cell Count  Predict Conc            
1     0.059625  800000        1
2     0.063125  442000        1
3     0.067375  544000        1 
4     0.060125  728000        2
5     0.062500  616000        2
6     0.063000  688000        2
7     0.061125  532000        3
8     0.059875  470000        3
9     0.059250  556000        3
10    0.060250  466000        4
11    0.056000  222000        4
12    0.056000  390000        4
13    0.055125  112000        5
14    0.049625  105000        5
15    0.050875  120000        5
16    0.047875  56000         6
17    0.058000  44000         6
18    0.048500  140000        6
19    0.052500  62000         7
20    0.061125  52000         7
21    0.047125  64000         7  

这个问题与使用现有数据集作为基础数据集生成数据非常相似,似乎已经使用 R 回答了我无法开始工作。

谢谢

标签: pythonsvmknndata-generation

解决方案


推荐阅读