python-3.x - 在 CSV 中保留或不保留标题以进行训练
问题描述
是否总是需要从导入的 CSV 中删除标题以进行培训?
这就是我所拥有的...
raw_data_df = [pd.read_csv(
file, header=None, skiprows=[0], low_memory=False) for file in input_files]
train_data_df = pd.concat(raw_data_df)
我们在跳过标题时使用header=None
and skiprows=[0]
,并将其传递给 LogisticRegression().fit()
还是保留标题更好?
解决方案
如果所有文件中的标题都相同,那么您可以保留它们。或者你只保留第一个文件的标题。
具有标题的好处是,当您运行逻辑回归时,您可以轻松找出哪些系数属于哪些列名称(以及哪些系数最重要)。
例如:
import numpy as np
import pandas as pd
from sklearn.linear_model import LogisticRegression
lr = LogisticRegression()
lr.fit(X_train, y_train)
df_lr_coef = pd.DataFrame({
'features': lr.classes_,
'coefficients': lr.coef_,
'coef_abs': np.abs(lr.coef_),
}).sort_values(by='coef_abs', ascending=False)
推荐阅读
- c++ - SSH 会话不会通过 cpp reboot 命令终止,而是通过 CLI 命令重新启动
- deep-learning - COCO 上的 Darknet 预训练权重如何适应不同的输出大小(不同的类数)?
- node.js - 如何在本地安装 npm 包?
- css - 定位Vue组件的最佳方式
- blazor - Blazor - 处理多个父母
- qt - 将 QTableView 高度调整为其内容(几行)
- graph - 为什么通过使用分离方法改变张量使得反向传播并不总是无法在 pytorch 中工作?
- python - 如何使用带有 Flask 的静态 .yaml 文件生成 OpenAPI 文档(Swagger UI)页面?
- javascript - 在javascript中组合2个URL
- python - 循环遍历列表时出现 StaleElementReferenceException