首页 > 解决方案 > Python 逻辑回归(数据科学新手)

问题描述

我正在做一个项目,其中有两个 excel 的一个 master.xls 和另一个 sample.xls。主文件同时具有因变量和自变量。而 sample.xls 只有自变量,需要创建自变量(1 或 0,1 = 糖尿病,0 = 非糖尿病)

现在我需要使用主文件来训练模型并预测样本文件的自变量。但不确定如何在 train 和 test 之间拆分数据。需要帮忙。

标签: logistic-regression

解决方案


使用pandas库的read_excel函数加载数据(比如 master.xls)

import pandas as pd
df = pd.read_excel('master.xls')

可以说y是因变量(即机器学习术语中的基本真实值)。获取y列值并将其从dataframe df

y = df['y']
df = df.drop(['y'],axis=1)

现在使用scikit-learn 的train_test_split函数将数据拆分为&traintest

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df, y, test_size=0.3)

现在X_train将拥有总数70%据点和总数据点。&分别是&数据的因变量X_test30%y_trainy_testtraintest


推荐阅读