python - 如何在数据框中为 test_train_split 选择数据列和目标列?
问题描述
我正在尝试将test_train_split
我从 csv 读取的数据设置为 pandas 数据帧。我正在阅读的书说我应该分为x_train
数据和y_train
目标,但是我如何定义哪一列是目标,哪一列是数据?到目前为止,我有以下
import pandas as pd
from sklearn.model_selection import train_test_split
Data = pd.read_csv("Data.csv")
我已阅读以以下方式进行拆分,但是以下使用的是已经定义了data
and的一堆:target
X_train, X_test, y_train, y_test = train_test_split(businessleisure_data['data'],
iris_dataset['target'], random_state=0)
解决方案
你可以这样做:
Data = pd.read_csv("Data.csv")
X = Data.drop(['name of the target column'],axis=1).values
y = Data['name of the target column'].values
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=0)
在大多数情况下,目标变量是数据集的最后一列,因此您也可以尝试以下操作:
Data = pd.read_csv("Data.csv")
X = Data.iloc[:,:-1]
y = Data.iloc[:,-1]
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=0)
推荐阅读
- php - PHP 在 PHPMailer 中报告“无法重新声明类”
- php - 致命错误:允许的内存大小为 268435456 字节已用尽(尝试分配 8192 字节)
- asp.net-mvc - Sitefinity 更改已发布但无法在浏览器中运行
- hibernate - 对于 DDL,ElementCollection 中的 Embeddable 中的约束被忽略
- c++ - 一个类可以包含一个后来专门用于派生类的基类作为成员吗?
- kotlin - 如何在返回 Deferred 的异步函数中延迟
- lua - 使用 Lua 脚本避免宏病毒行为?
- python - Numpy arcsinh np.arcsinh() 转换函数的比例参数
- botframework - Oauth 登录不起作用,显示:['application/vnd.microsoft.card.oauth' 类型的文件]
- ruby-on-rails - 关系数据库和外键