首页 > 解决方案 > ETL:转换/清理 excel 文件

问题描述

我正在为一家初创公司工作,他们从不同公司获取带有客户信息的 excel 文件。我们目前没有任何 ETL 工具,因为这项工作是手动处理的,以将数据转换为所需的结构并加载到 CRM 系统中。我的计划是将这些 excel 文件加载到数据库中,并将 CRM 复制到数据库中并进行一些模糊映射。您能否推荐一个轻量级的 ETL 工具来应用一些规则来清理数据并比较我们现有的客户数据?

谢谢,mc

标签: exceldatabaseetl

解决方案


获取 Excel 提要当然很常见,您需要一个良好的过程来获取和验证它们,尤其是因为它们通常是手动创建或调整的,从而导致频繁的数据和格式问题。雪上加霜的是,Excel 对数据类型的概念非常模糊,经常在工作中扔扳手。

在可能的情况下,将您的数据源切换为其他格式(JSON、CSV、数据库提取)。这需要上游工作,但也需要解决提要问题,因此切换到更好的格式(并很好地定义提要!)很快就会为双方带来回报。

处理传入文件示例描述了一种可靠处理传入文件的多个提要的通用方法,其中包括成功和失败文件的处理和存档。该示例使用了我公司的actionETL跨平台 .NET ETL 库,但我之前也将相同的方法用于其他 ETL 工具。

绘制所有当前和即将到来的数据源和目的地,并查看哪些工具非常适合。在购买之前尝试使用您的实际 ETL 提要和要求。预计 ETL 数据集成将是一个持续的项目,因为提要和需求永远不会停止变化和增长。

干杯,克里斯蒂安


推荐阅读