pyspark - 如何在不使用循环的情况下更新数据框
问题描述
我有两个源数据框:
Storeorder: {columns=Store, Type_of_carriers, No_of_carriers, Total_space_required}
Fleetplanner: {columns=Store, Truck_Type, Truck_space, Route}
要求是:
使用 {Store, Type_of_carriers, No_of_carriers, Route} 创建列表
在 Fleetplanner 数据中,一个 Store 可以有多个 Truck_type 和 Route。一条路线也可以有多个商店或站点关联。
- 每次我从 Storeorder 获取记录时,我都必须指定有多少承运人将前往哪条路线。
- 同时,我必须用留给下一家商店的空间来更新 Fleetplanner 数据。
这是我在 Pandas 中使用循环完成的,这需要大量时间。
谁能建议如何在 Spark 中以其他方式解决此问题?
我已经使用 Pandas 解决了这个问题,但想在 Spark 中并行化
描述
解决方案
推荐阅读
- java - JProfiler 能够为一个用户找到 JVM 进程,但可以在同一台机器上为另一个用户找到它
- google-cloud-platform - GCP 外部 HTTP(S) 负载均衡器返回 502:“backend_connection_closed_before_data_sent_to_client”
- android - 首次创建时无法构建 Bare Expo 应用程序(Expo SDK 42)
- python - Plotly (Python/Express):在图表和图例上设置最小宽度
- reactjs - ConnectyCube Messaging -web 中的连接未脱机
- node.js - 如何在 NestJS 上使用猫鼬
- c++ - 明智的安装 使用 Setup.iss 进行静默安装
- reactjs - 索引文件中的反应js错误无法更新组件问题
- reactjs - 模态在反应本机模态中不正确
- vue.js - 带有 Vue JS 的 ASP.NET Core 5 从源访问 XMLHttpRequest 已被 CORS 策略阻止