python - 使用 Python 基于现有数据集生成新数据
问题描述
我有一个由 21 条唯一数据记录组成的数据集。为了通过增加每个类的样本数来对某些算法(如 kNN 和 SVM)的性能进行基准测试,我想测试每个类至少有 20 个或更多唯一记录的数据(Predict Conc。是不同的类)。
我不想生成随机数据。我想使用我拥有的 21 个唯一数据记录作为基础数据集,并生成与现有数据相似的剩余数据。
如何使用 Python 做到这一点?
这是示例数据
Index OD600AV Cell Count Predict Conc
1 0.059625 800000 1
2 0.063125 442000 1
3 0.067375 544000 1
4 0.060125 728000 2
5 0.062500 616000 2
6 0.063000 688000 2
7 0.061125 532000 3
8 0.059875 470000 3
9 0.059250 556000 3
10 0.060250 466000 4
11 0.056000 222000 4
12 0.056000 390000 4
13 0.055125 112000 5
14 0.049625 105000 5
15 0.050875 120000 5
16 0.047875 56000 6
17 0.058000 44000 6
18 0.048500 140000 6
19 0.052500 62000 7
20 0.061125 52000 7
21 0.047125 64000 7
这个问题与使用现有数据集作为基础数据集生成数据非常相似,似乎已经使用 R 回答了我无法开始工作。
谢谢
解决方案
推荐阅读
- python - 为什么只有一个变量或表单传递给模板 django
- python - Python 和 pandas:df["colName"] 是否完全等同于 df.loc[:,"colName"]?
- kubernetes - HPA 无法读取 GKE 上的指标值(CPU 利用率)
- javascript - Sugar.Date.isBetween() 无论日期如何,都会不断产生错误
- c++ - 性能随着循环体中的更多指令而提高(未优化的代码)
- performance - 最后排序可以避免这个循环吗?
- java - Spring Boot 2 和 Security With JWT 无法提供 Angular 构建的静态内容
- javascript - 连接似乎在 JavaScript 中不起作用
- excel - 以编程方式将单元格的值设置为当前日期
- python - 检查电子邮件的唯一性。注册django