首页 > 解决方案 > 如何使用 Lat Long 数据查找重复项并使其成为大数据集中的唯一标识符

问题描述

我的数据集看起来像这样 {** 请注意下面是假设的数据集}

目标:销售人员必须前往特定位置并验证房屋/商店/建筑物和设备捕获的以下信息

编号 Store_Name 电话号码。 Agent_id 区域 经纬度
1 ABC 商店 89099090 121 海湾地区 23.909090,89.878798
2 武汉口罩 45453434 122 圣达菲 24.452134,78.123243
3 推特咖啡馆 67556090 123 中东 11.889766,23.334483
4 美国广播公司 33445569 121 圣诞老人 23.345678,89.234213
5 银色健身房 11004110 234 Worli Sea Link 56.564311, 78.909087
6 CK服饰 00908876 223 第 90 街 34.445887, 12.887654

Facts: #1 Unique Identifier for Find Duplicates -- ** Check Sr.No 1 & 4 基本相同

在这个虚拟数据集中,所有的列都可以被操纵,即相同的商店/房屋/建筑物出口

a) 由于名称是手动输入的,相同的房子/商店名称可以更改并输入到系统中 - 可能会发生多次访问 b) 手机号码也可以被操纵,不同的号码可以与同一个商店关联

c) 具有代理捕获经纬度信息的设备也可以被伪造 - 通过靠近或靠近建筑物

问题 :

  1. 如何将 Lat-Long 数据作为唯一标识符牢记点 - c,上面用于在庞大的数据集中查找重复项。
  2. 部署 QR 也不是很有帮助,因为这也可以调整。
  3. 特此停止员工的欺诈行为(同一员工可以访问同一商店/网点,或者不同的员工也可以再次访问同一商店以增加访问次数)

现在我只能想到 Lat-Long Column 来制作 UID 请随时建议是否可以制作其他任何东西

编辑:提前祝圣诞快乐,新年快乐

标签: rduplicatesgeolocationlogicbusiness-intelligence

解决方案


推荐阅读