首页 > 解决方案 > 将标签和数据从 csv 加载到 sklearn

问题描述

我有一个 csv 文件,其中包含几行分类/标签,后跟与它们相关的数据:

  cat, 0, 1, 45, 23, ...
  dog, 1, 5, 75, 23, ...
  cat, 3, 4, 63, 24, ...
  cat, 0, 1, 44, 23, ...
  dog, 7, 3, 25, 4, ...

如何将 csv 文件加载到 sklearn?

编辑:还是我需要用数字等价物替换标签?即狗 = 1,猫 = 2,等等。

标签: pythonpython-2.7scikit-learn

解决方案


* 根据 Vivek 的评论编辑

你可以使用熊猫。这是将数据输入简单随机森林分类器的示例:

import pandas as pd
from sklearn.ensemble import RandomForestClassifier

data = pd.read_csv('/path/to/data')

Y = data[[0]]  # labels
X = data.drop([0], axis = 1)  # features

clf = RandomForestClassifier()
clf.fit(X, Y)

推荐阅读