首页 > 解决方案 > What's an approach to ML problem with multiple data sets?

问题描述

What's your approach to solving a machine learning problem with multiple data sets with different parameters, columns and lengths/widths? Only one of them has a dependent variable. Rest of the files contain supporting data.

标签: machine-learning

解决方案


您的查询在某种程度上也过于笼统且无关紧要。在构建 ML 模型时,对列长度和宽度的关注是不合理的。鉴于只有一个数据集具有因变量,因此需要基于跨数据集通用的键合并数据集。通常,在进行建模之前遵循的过程是:

步骤 0:识别因变量并决定是否进行回归或分类(假设您正在预测变量值)

通过处理重复、拼写错误来清理提供的数据

扫描分类变量以处理任何差异。

合并数据集并创建一个包含所有自变量和必须进行预测的因变量的数据集。

进行探索性数据分析,以了解因变量与其他自变量的行为。

创建模型并根据 VIF(方差膨胀因子)和 p 值优化模型。

迭代并不断减少变量,直到你得到一个包含所有重要变量的模型,稳定的 R^2 值。完成模型。

将经过训练的模型应用于测试数据集,并根据测试数据集中的变量查看预测值。

在高层次上遵循​​这些步骤将帮助您构建模型。


推荐阅读