pyspark - pySpark 中的数据框级计算
问题描述
我正在使用 PySpark,并希望利用多个节点的优势来提高性能时间。
例如:
假设我有 3 列并且有 100 万条记录:
Emp ID | Salary | % Increase | New Salary
1 | 200 | 0.05 |
2 | 500 | 0.15 |
3 | 300 | 0.25 |
4 | 700 | 0.1 |
我想计算 New Salary 列,并想利用 pyspark 中多个节点的功能来减少整体处理时间。
我不想对 New Salary 进行迭代的逐行计算。
df.withColumn 是否在数据帧级别进行计算?随着使用更多节点,它能否提供更好的性能?
解决方案
推荐阅读
- firebase - 当我通过 expo react native 将图像上传到 firebase 时,它没有显示图像;显示错误加载预览
- php - Wordpress 页面和模板查询
- javascript - 从场景图树循环
- typescript - ngx-facebook npm 包的 ui mathod 承诺永远不会解决或拒绝
- json - Google Cloud Vision 示例代码错误 (utf-8)
- .htaccess - https://domain dot com 到 https://www.domain dot com 无需编辑 .htaccess 文件
- php - 将 MySQLi 结果填充到 PHP 索引数组中
- php - 服务器中的 ziparchive() 问题
- django - 是否可以在 Django 中扩展站点范围的模板/引用更高目录中的模板?
- c++ - 特殊情况下的智能指针析构函数