首页 > 解决方案 > 构建分类器时如何对输入特征之间的依赖关系进行建模

问题描述

我有形状为 (1000,20) 的数据集(1000 行,20 个特征),我想为它构建一个分类器。然而,大多数 sk-learn 算法都假设这 20 个特征是独立的。在我的功能中,功能之间存在高斯依赖性。如何将此依赖关系建模为 SVM 或 ExtraTreeClassifier 等分类器的输入?

谢谢

标签: pythonclassificationsvmdata-sciencefeature-engineering

解决方案


使用与线性不同的内核。

由于您提到您的功能之间存在高斯依赖性,我认为基于径向函数的RBF内核最适合您。

我知道的任何 SVM 库都有这个内核选项。例如,您可以在此处查看 SVM 的 scikit-learn 文档。让我们看看我从该页面获取的示例:

from sklearn.svm import SVC
clf = SVC(gamma='auto')
clf.fit(X, y)  

SVC(C=1.0,cache_size=200,class_weight=None,coef0=0.0,decision_function_shape='ovr',degree=3,gamma='auto',kernel='rbf',max_iter=-1,probability=False,random_state =无,缩小=真,tol=0.001,详细=假)

如您所见,内核默认设置为rbf,因此您可以随意使用它。


推荐阅读