首页 > 解决方案 > 如何标准化用户插入的城市名称

问题描述

我需要编写一个小型 ETL 管道,因为我需要将一些数据从源数据库移动到目标数据库(数据仓库)以对数据执行一些分析。

在这些数据中,我需要清理和符合城市名称。城市是由国际用户手动插入的,因此对于一个城市,我可以有多个名称(例如伦敦或伦敦)。在我的源数据库中,我不仅有大城市,还有小村庄。

好吧,如果我不标准化城市名称,我们的分析可能是荒谬的。

在我的目标数据库中标准化城市的最佳实践是什么?有什么想法或建议我可以承担吗?

谢谢

标签: geolocationetldata-warehousestandardization

解决方案


唯一可靠的方法是使用商业地址验证软件 - 最好在创建数据时在源系统中,但它可以集成到您的数据管道流程中。

假设您负担不起/证明使用商业软件的合理性,唯一的其他解决方案是创建您自己的转换表,即保存输入值以及您希望将它们转换为什么值的表。

虽然您可以根据历史数据构建此表,但总会有新值不在表中,因此您需要一个流程来识别这些值,将新记录添加到您的翻译数据中,然后修复受影响的记录。您还需要接受每次数据加载后一段时间内您的仓库中都会有未清理的数据


推荐阅读