python-3.x - 将 PySpark 数据帧转换为 pandas 数据帧的时间长度
问题描述
假设我们有两个 PySpark 数据帧df1
并且df2
具有相同的模式。假设id
是两个数据帧的键,df1
包含 ids1, 2, 3, 4, 5, 6, 7
和df2
包含 ids 8, 9, 10
。
这些操作(toPandas()
操作)中的任何一个是否会比其他操作花费更长的时间:
ids = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
df_combined = df1.union(df2)
df_combined = df_combined.filter(df_combined.id.isin(ids))
df_pd = df_combined.toPandas()
相对
df_pd = df1.toPandas()
解决方案
推荐阅读
- linux - 用于从文件中读取值并将它们与另一个值进行比较的 Shell 脚本
- c++ - C++ TensorRT 批量推理给出了奇怪的结果
- javascript - 从 javascript 使用 FireFox 截图功能
- ssl - Lucee SSL 证书被丢弃
- php - 在 Laravel 中编辑和复制图像 [无法将图像数据写入路径]
- angular - 在生产构建中排除资产
- python - 如何在 Flask uWSGI Nginx 中导入文件?
- android - 无法使用 android Paging 库加载下一个数据
- android - 带有 react-native 版本 0.57 的 Google admob
- javascript - 如何在 Web 和移动设备上实时镜像 HTML 页面