首页 > 解决方案 > 如何进行循环和计算以在 spark scala 数据框中查找多次行程的距离

问题描述

我的数据框看起来像这样 在此处输入图像描述

这是我想要的

  1. 每当列中第一次出现的值 - “location2_distance_from_lat_long”<= 1.0 km 时,

它将开始计算距离/(获取时间戳值),直到它到达其他列中第一次出现的值,即“location2_distance_from_lat_long”,即 <=100

同样循环继续第二次出现

例如,在时间戳 1529321201000 处,“location2_distance_frm_lat_long”列的值为 1km ,它将开始计算行程。并假设在其他列“location1_distance_frm_lat_long”中的时间戳 155352242000 处,该值也达到 1km,然后到该点为止,需要获取所有记录并计算距离。下一次旅行将在该时间戳之后开始。

  code

在此处输入图像描述

在此处输入图像描述

在此处输入图像描述

在此处输入图像描述

在上面,如果我在距离达到 <=.100km 时如何编写循环

标签: apache-sparkapache-spark-sqlspark-streamingpyspark-sql

解决方案


推荐阅读