首页 > 解决方案 > 寻找更好的方法来清理或“擦洗”数据

问题描述

一些背景知识:我们每年都会从客户那里收到一份文件,其中包含有关他们客户的数据——通常是一个唯一的 ID、个人信息、他们拥有哪些金融产品、与这些产品相关的成本等……

我们有一个流程,我们在 excel 中手动清理或“清理”这些文件,以准备将它们放入 R 中的模型,然后将这些数据输入 Tableau 进行演示。

这种清理是为了删除不良数据(缺少像薪水这样的关键信息),估算丢失的数据(他们有一个表明他们有配偶的金融产品,所以我们将他们标记为有配偶),并将其转换为正确的格式要摄取的 R 模型。

所有这些手动工作都需要大量时间,我们已经研究了尝试自动化清理的方法,但我们遇到的主要问题是这些文件中的每一个都是独一无二的。例如,他们每个人都可能有薪水,但有人可能会称列“薪水”、另一个“年收入”、另一个“总薪酬”等......这些文件上可能有几十个字段可以有几乎无限数量的不同名称。

有没有可以处理这种情况的工具?有没有人对如何解决这个问题有任何建议?

谢谢!

标签: rexcelautomationtableau-api

解决方案


我最初的想法是使用某种预处理器来规范化输入。如果您使用可能的工资字段名称创建一个映射到官方工资字段名称,您的预处理文件将全部使用相同的字段名称。


推荐阅读