首页 > 解决方案 > 如何将 scikit-learn (make_circle) 替换为我自己的数据集?

问题描述

我正在尝试将我自己的数据集集成到 scikit learn 中。我的数据集是分类数据,我编码为数字数据,它有 3 列和 100 行。当前的 scikit learn 数据集是使用 make_circle() 创建的。

X, Y = make_circles(n_samples=n, noise=0.07, factor=0.4) 

我做了什么?

我使用熊猫阅读我的数据集。

col_names = ['Relation', 'Entity1', 'Entity2']
# load dataset
pima = pd.read_csv("encode.csv", header=None, names=col_names)
pima.head()

电流输出:

Relation    Entity1     Entity2
 3       0       0
 0       1       2
 2       9       0
 3       5       3
 1       4       1
 2       6       0
 3       3       4

但我想将此基于 make_circle() 的数据集添加到二维空间中。

标签: pythonmachine-learningscikit-learn

解决方案


您必须应用降维并将其降低到 2 维。

您可以使用PCAUMAP 之类的东西。

检查这篇文章。它应该非常有用。

使用 UMAP:

import umap

reduced = umap.UMAP().fit_transform(pima)

使用 PCA:

from sklearn.decomposition import PCA

pca = PCA(n_components=2)
reduced = pca.fit_tranform(pima)

推荐阅读