首页 > 解决方案 > pySpark 中的数据框级计算

问题描述

我正在使用 PySpark,并希望利用多个节点的优势来提高性能时间。

例如:

假设我有 3 列并且有 100 万条记录:

Emp ID | Salary | % Increase | New Salary 
1 | 200 | 0.05 | 
2 | 500 | 0.15 | 
3 | 300 | 0.25 | 
4 | 700 | 0.1 |

我想计算 New Salary 列,并想利用 pyspark 中多个节点的功能来减少整体处理时间。

我不想对 New Salary 进行迭代的逐行计算。

df.withColumn 是否在数据帧级别进行计算?随着使用更多节点,它能否提供更好的性能?

标签: pysparkpyspark-dataframes

解决方案


Spark 的数据帧基本上是一个分布式的数据集合。Spark管理这个分布和对它们的 操作(例如.withColumn)。

是关于如何提高 Spark 性能的快速谷歌搜索。


推荐阅读