machine-learning - What's an approach to ML problem with multiple data sets?
问题描述
What's your approach to solving a machine learning problem with multiple data sets with different parameters, columns and lengths/widths? Only one of them has a dependent variable. Rest of the files contain supporting data.
解决方案
您的查询在某种程度上也过于笼统且无关紧要。在构建 ML 模型时,对列长度和宽度的关注是不合理的。鉴于只有一个数据集具有因变量,因此需要基于跨数据集通用的键合并数据集。通常,在进行建模之前遵循的过程是:
步骤 0:识别因变量并决定是否进行回归或分类(假设您正在预测变量值)
通过处理重复、拼写错误来清理提供的数据
扫描分类变量以处理任何差异。
合并数据集并创建一个包含所有自变量和必须进行预测的因变量的数据集。
进行探索性数据分析,以了解因变量与其他自变量的行为。
创建模型并根据 VIF(方差膨胀因子)和 p 值优化模型。
迭代并不断减少变量,直到你得到一个包含所有重要变量的模型,稳定的 R^2 值。完成模型。
将经过训练的模型应用于测试数据集,并根据测试数据集中的变量查看预测值。
在高层次上遵循这些步骤将帮助您构建模型。
推荐阅读
- python - Django:以编程方式在用户保存时添加组
- python - 编写一个函数,返回并打印列中所有值中的最大值
- .net-core - 为什么“项目路径”不可修改?
- aws-lambda - 在登录时将用户迁移到 Cognito
- pandas - Python:如何按顺序获取数字范围
- arrays - Matlab:如何沿数组的一维应用函数
- azure - AZURE SQL DB 漏洞评估标记数据库防火墙设置后的高风险
- python - 如何返回列中的值与另一列中的另一个值不对齐的次数?
- c# - 检查 OrderBy 字符串是否有效
- python - 一个未来可以在 python 中有多个服务员吗?