logistic-regression - Python 逻辑回归(数据科学新手)
问题描述
我正在做一个项目,其中有两个 excel 的一个 master.xls 和另一个 sample.xls。主文件同时具有因变量和自变量。而 sample.xls 只有自变量,需要创建自变量(1 或 0,1 = 糖尿病,0 = 非糖尿病)
现在我需要使用主文件来训练模型并预测样本文件的自变量。但不确定如何在 train 和 test 之间拆分数据。需要帮忙。
解决方案
使用pandas库的read_excel函数加载数据(比如 master.xls)
import pandas as pd
df = pd.read_excel('master.xls')
可以说y
是因变量(即机器学习术语中的基本真实值)。获取y
列值并将其从dataframe df
y = df['y']
df = df.drop(['y'],axis=1)
现在使用scikit-learn 的train_test_split函数将数据拆分为&train
test
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df, y, test_size=0.3)
现在X_train
将拥有总数70%
据点和总数据点。&分别是&数据的因变量X_test
30%
y_train
y_test
train
test
推荐阅读
- python - 紧密循环可以调用其他文件吗?
- javascript - 在生产中反应原生:Cryptojs AES 错误:格式错误的 UTF-8 数据
- javascript - 生产环境中的 Vue 故障
- php - 从下拉菜单中选择不同选项时从 MySQL 获取数据
- python - 如何在numpy中将字符串从pandas数据帧转换为3维数组
- c# - 使用 WebDeploy 创建 ASP.NET VM
- java - 如何在android studio中使用字节数组创建文件音频?
- matplotlib - Cartopy 纵横比匹配线子图与地理地图
- excel - 按工作表将工作簿拆分为多个文件:如何将保存的工作簿名称作为工作表标题?
- android - 证书和密钥库