sql-server - Google Maps SQL Server:计算组内的异常地理数据
问题描述
有 100 个供应商,每个供应商有 50 到 1000 件商品。每个供应商都可能在他们的办公室附近或遍布整个国家或大陆拥有物品。
由于 LatLngs 是由人工输入的,因此会发生一些错误。由于大量数据和不断的“流失”,错误很难识别。
为了提高数据质量,我想识别每个供应商的异常值,以便修复它们。如果供应商的商品大部分都在纽约附近,那么加利福尼亚的商品将是一个异常值。
供应商
SupplierID int
Latitude DECIMAL(12,9)
Longitude DECIMAL(12,9)
项目
ItemID int
SupplierID int
LatLng geography
我假设我需要为此使用标准偏差,但是将它放入 T-SQL 让我很头疼。
我想根据每个供应商的特定偏差输出每个供应商的异常值列表。
此代码输出项目以及每个项目与供应商办公室之间的距离。
WITH cte AS
(
SELECT
ItemID,
SupplierID,
LatLng,
LatLng.STDistance(GEOGRAPHY::Point(a.Latitude, a.Longitude, 4326))/1000 As Distance
FROM
Items v
JOIN
Suppliers a ON v.SupplierID = a.SupplierID
)
SELECT
ItemID, SupplierID, Distance
FROM cte
这是标准偏差的 SQL 功能(来自博客文章):
DECLARE @StdDev DECIMAL(5,2)
DECLARE @Avg DECIMAL(5,2)
SELECT
@StdDev = STDEV(Qty),
@Avg = AVG(Qty)
FROM Sales
SELECT
*
FROM
Sales
WHERE
Qty > @Avg - @StdDev AND
Qty < @Avg + @StdDev
我需要做的步骤
- 计算距离
STDEV
,AVG
GROUP BY SupplierID
- 输出距离大于
AVG + STDEV
项目供应商的项目
这是我挠头的地方,因为这是我已经执行的多个步骤之后的多个步骤。我想我可以将我拥有的内容插入 TEMP 表并从那里开始,但这真的是最好的方法吗?
解决方案
您可以为此使用窗口函数。两者AVG
和STDEV
都可用作窗口函数
WITH Distances AS
(
SELECT
i.ItemID,
s.SupplierID,
i.LatLng,
v.SupplierLocation,
i.LatLng.STDistance(v.SupplierLocation)/1000 As Distance
FROM
Items i
JOIN
Suppliers s ON i.SupplierID = s.SupplierID
CROSS APPLY (VALUES (
GEOGRAPHY::Point(s.Latitude, s.Longitude, 4326)
)) v(SupplierLocation)
),
Averages AS (
SELECT
ItemID,
SupplierID,
LatLng,
SupplierLocation
Distance,
AVG(Distance) OVER (PARTITION BY SupplierID) AS Avg,
STDEV(Distance) OVER (PARTITION BY SupplierID) AS StDev
FROM
Distances
)
SELECT
ItemID,
SupplierID,
Distance,
Avg,
StDev
FROM
Averages
WHERE
Distance > Avg - StdDev AND
Distance < Avg + StdDev;
推荐阅读
- java - 如何检查 Docker 容器中的应用程序是否忽略 Java 内存选项?
- python - asyncio.Queue 被 1 个协程添加到队列中,1 个协程从队列中获取
- javascript - 当位于页面的特定部分时,我需要使用 JavaScript 突出显示导航栏中与其相关的按钮
- c++ - 两个类与另一个类的成员函数交朋友
- python - 在 TensorFlow WHILE 训练中添加检查点
- python - 当我使用请求模块时,python 给我一个“套接字错误”
- javascript - 用逗号反应原生 js 正则表达式数字,没有点、空格和线
- lua - 我可以使用罗技 lua api 从正常的键盘按下中获取事件吗?
- python - pandas.interpolate 没有给出想要的结果
- javascript - 最佳方式从一组对象中设计和生成唯一字符串以进行映射