excel - ETL:转换/清理 excel 文件
问题描述
我正在为一家初创公司工作,他们从不同公司获取带有客户信息的 excel 文件。我们目前没有任何 ETL 工具,因为这项工作是手动处理的,以将数据转换为所需的结构并加载到 CRM 系统中。我的计划是将这些 excel 文件加载到数据库中,并将 CRM 复制到数据库中并进行一些模糊映射。您能否推荐一个轻量级的 ETL 工具来应用一些规则来清理数据并比较我们现有的客户数据?
谢谢,mc
解决方案
获取 Excel 提要当然很常见,您需要一个良好的过程来获取和验证它们,尤其是因为它们通常是手动创建或调整的,从而导致频繁的数据和格式问题。雪上加霜的是,Excel 对数据类型的概念非常模糊,经常在工作中扔扳手。
在可能的情况下,将您的数据源切换为其他格式(JSON、CSV、数据库提取)。这需要上游工作,但也需要解决提要问题,因此切换到更好的格式(并很好地定义提要!)很快就会为双方带来回报。
处理传入文件示例描述了一种可靠处理传入文件的多个提要的通用方法,其中包括成功和失败文件的处理和存档。该示例使用了我公司的actionETL跨平台 .NET ETL 库,但我之前也将相同的方法用于其他 ETL 工具。
绘制所有当前和即将到来的数据源和目的地,并查看哪些工具非常适合。在购买之前尝试使用您的实际 ETL 提要和要求。预计 ETL 数据集成将是一个持续的项目,因为提要和需求永远不会停止变化和增长。
干杯,克里斯蒂安
推荐阅读
- angular - 在`Angular`中实现`Refresh Token`
- python - 使用数字 dtype 的均值填充 pandas 列中的 NaN,非数字 dtype 的模式
- laravel-7 - 用户可以通过 http://localhost/ProjectLaravel/.env 访问我的 .env laravel 文件,我还没有找到 .htaccess 文件的解决方案
- android-studio - 如何在 libGdx 中请求访问网络状态、访问 Wifi 状态和 Internet 的权限
- python - 使用 discord.py 重复命令
- python - 将数据从列表写入 csv 文件后,某些列单元格为空
- javascript - 类型“{}”缺少以下属性 - Angular 9.1.1
- vim - 如何在vscode vim中删除文件中的所有内容?
- javascript - 我的想法有很好的条件代码吗?
- c - 如何在c中检查字符串中的重复字符