pyspark - pyspark 将大熊猫数据帧更改为 pyspark 数据帧并写入 s3 出错
问题描述
星火版本> 2。在尝试更改大型 pandas 数据帧以触发数据帧并写入 s3 时,出现错误:
Serialized task 880:0 was 665971191 bytes, which exceeds max allowed: spark.rpc.message.maxSize (134217728 bytes). Consider increasing spark.rpc.message.maxSize or using broadcast variables for large values.
尝试重新分区以增加分区,但没有解决问题。
通读此 Pyspark:序列化任务超出允许的最大值。考虑增加 spark.rpc.message.maxSize 或对大值使用广播变量
尝试以下:
from pyspark.conf import SparkConf
from pyspark.sql import SparkSession
spark = (SparkSession.builder
.master("yarn")
.appName("myWork")
.config("spark.rpc.message.maxSize", "1024mb")
.getOrCreate())
还是有问题。有什么建议吗?
解决方案
推荐阅读
- javascript - 嘿伙计们,我正在尝试让我的网站对 html 进行 jquery,因为其中包含数据。日志和 xmlrequest 工作,但它不会显示在当前页面
- postgresql - 如何授予用户访问 pg_cast 的权限?
- c# - 在始终加密的列值上使用 ToLower() 的 Linq 查询返回错误
- amazon-iam - 可以连接到 Code Commit SSH 但权限被拒绝 git clone
- c# - 获取服务主体对象的访问令牌的正确方法是什么?
- stata - 我正在尝试将写为 '11jun1965' 的出生年份转换为 Stata 中的年龄变量。使用以下代码,我无法生成当前年龄
- javascript - 将字符串更改为不同的字符串
- mongodb - 为什么我的 MongDB 无法访问数据?
- nginx - CentO 上的 Laravel 权限
- python - 如何使用 pytrends 获得谷歌趋势的平均输出?