首页 > 解决方案 > 如何在不使用循环的情况下更新数据框

问题描述

我有两个源数据框:

Storeorder: {columns=Store, Type_of_carriers, No_of_carriers, Total_space_required}
Fleetplanner: {columns=Store, Truck_Type, Truck_space, Route}

要求是:

  1. 使用 {Store, Type_of_carriers, No_of_carriers, Route} 创建列表

  2. 在 Fleetplanner 数据中,一个 Store 可以有多个 Truck_type 和 Route。一条路线也可以有多个商店或站点关联。

  3. 每次我从 Storeorder 获取记录时,我都必须指定有多少承运人将前往哪条路线。
  4. 同时,我必须用留给下一家商店的空间来更新 Fleetplanner 数据。

这是我在 Pandas 中使用循环完成的,这需要大量时间。

谁能建议如何在 Spark 中以其他方式解决此问题?

我已经使用 Pandas 解决了这个问题,但想在 Spark 中并行化

描述

标签: pysparkpyspark-sql

解决方案


推荐阅读