r - 寻找更好的方法来清理或“擦洗”数据
问题描述
一些背景知识:我们每年都会从客户那里收到一份文件,其中包含有关他们客户的数据——通常是一个唯一的 ID、个人信息、他们拥有哪些金融产品、与这些产品相关的成本等……
我们有一个流程,我们在 excel 中手动清理或“清理”这些文件,以准备将它们放入 R 中的模型,然后将这些数据输入 Tableau 进行演示。
这种清理是为了删除不良数据(缺少像薪水这样的关键信息),估算丢失的数据(他们有一个表明他们有配偶的金融产品,所以我们将他们标记为有配偶),并将其转换为正确的格式要摄取的 R 模型。
所有这些手动工作都需要大量时间,我们已经研究了尝试自动化清理的方法,但我们遇到的主要问题是这些文件中的每一个都是独一无二的。例如,他们每个人都可能有薪水,但有人可能会称列“薪水”、另一个“年收入”、另一个“总薪酬”等......这些文件上可能有几十个字段可以有几乎无限数量的不同名称。
有没有可以处理这种情况的工具?有没有人对如何解决这个问题有任何建议?
谢谢!
解决方案
我最初的想法是使用某种预处理器来规范化输入。如果您使用可能的工资字段名称创建一个映射到官方工资字段名称,您的预处理文件将全部使用相同的字段名称。
推荐阅读
- amazon-web-services - 使用 AWS 工具包在本地测试 SES lambda
- c# - 如何使用 Interop 在 C# 中读取受保护视图的 Excel 文件?
- excel - 通过更改文件名的 VBA 复制粘贴
- coq - Coq 只简化/展开一次。(用函数的一次迭代的结果替换部分目标。)
- php - 应用程序 Azure Api 中的 NoPermissionsInAccessToken 以创建联系人
- wordpress - Wordpress wp_login 挂钩未按预期工作
- c# - Facebook 身份验证被禁止
- qliksense - 在哪里为本地 Qlik Core 实例添加许可证信息
- excel - VSTO COM 加载项中的多个范围选择失败,但在 VBA 中完美运行,这里有什么问题?
- php - 为 PHP 7 在 xampp windows 8 上安装 Curl