首页 > 解决方案 > 简单的机器学习问题(SVM、随机森林

问题描述

我正在尝试解决机器学习任务,但遇到了一些问题。任何提示将非常感谢。我的问题之一是,如何为不同大小的 2 个数据帧(2 个标签的数据)创建相关矩阵,看看是否可以将它们组合成一个。

这是任务的全文

该数据集由 1100 个样本组成,每个样本有 30 个特征。第一列是样本 ID。数据集中的第二列代表标签。标签有 4 个可能的值。其余列是数字特征。

请注意,这些类是不平衡的:一些标签比其他标签更频繁。您需要决定是否考虑这一点,如果是,如何考虑。

比较支持向量机(由 sklearn.svm.LinearSVC 实现)与 RandomForest(由 sklearn.ensemble.ExtraTreesClassifier 实现)的性能。尝试优化这两种算法的参数并确定哪个最适合该数据集。在分析结束时,您应该选择了一种算法及其最佳参数集。

我试图为具有较低基数的标签的行创建一个相关矩阵,但我不相信它是可靠的

我尝试从具有标签 1 和 2 的行中创建两个新数据框。这两个标签中的每一个都有 100-150 个条目,而标签 0 和 3 有 400 个条目。我想检查数据之间是否存在高度相关性标记为 1 和 2,看看我是否可以将它们组合起来,但不知道这是否是正确的方法。我试图通过将零附加到较小的数据帧来使数据帧的大小相同,然后对两个数据集一起做一个相关矩阵。这是一个正确的方法吗

标签: pythonpandasmachine-learningscikit-learnsklearn-pandas

解决方案


你的问题和方法不清楚。你能用问题陈述和给你的几个数据集来修改问题吗?

如果您想可视化您的数据集,请将它们绘制成 2,3 或 4 维。这里有许多绘图工具,例如 3D 散点图、配对图、直方图等等。使用它们来更好地理解您的数据集。


推荐阅读