python - 在 Python 中对 CSV 文件进行训练测试拆分
问题描述
我有一个.csv
包含我的数据的文件。我想做Logistic Regression
,Naive Bayes
和Decision Trees
。我已经知道如何实现这些。
但是,我的老师希望我将.csv
文件中的数据拆分为80%
并让我的算法预测另一个20%
。我想知道如何以这种方式实际拆分数据。
diabetes_df = pd.read_csv("diabetes.csv")
diabetes_df.head()
with open("diabetes.csv", "rb") as f:
data = f.read().split()
train_data = data[:80]
test_data = data[20:]
我试图像这样拆分它(确保它不起作用)。
解决方案
工作流程
- 加载数据(请参阅如何使用 Python 读取和写入 CSV 文件? )
- 预处理数据(例如过滤/创建新功能)
- 将训练测试(验证和开发集)拆分
代码
Sklearnssklearn.model_selection.train_test_split
是您正在寻找的:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.33, random_state=0)
推荐阅读
- facebook-graph-api - Posts likes 适用于 Graph API Explorer 但在服务器上返回空数组
- android - 从服务器(EditText)接收文本后如何保留 Linebrakes
- selenium - 如何通过 Selenium 在 iframe 中检索 html
- jenkins - 如何将静默期设置为其他 Jenkins 参数?
- sap - 试图找出哪些物料分配给了哪个采购组
- laravel - 对laravel关系的怀疑
- django - 一次又一次地在 Django 中调用视图
- r - R Keras:LSTM 模型拟合问题 - 输出数组不匹配
- c# - 有没有办法将 JsonSerializerSettings 添加到自定义 JsonConverter
- wpf - 做出选择后重置组合框选择