首页 > 解决方案 > pyspark 将大熊猫数据帧更改为 pyspark 数据帧并写入 s3 出错

问题描述

星火版本> 2。在尝试更改大型 pandas 数据帧以触发数据帧并写入 s3 时,出现错误:

Serialized task 880:0 was 665971191 bytes, which exceeds max allowed: spark.rpc.message.maxSize (134217728 bytes). Consider increasing spark.rpc.message.maxSize or using broadcast variables for large values.

尝试重新分区以增加分区,但没有解决问题。

通读此 Pyspark:序列化任务超出允许的最大值。考虑增加 spark.rpc.message.maxSize 或对大值使用广播变量

尝试以下:

from pyspark.conf import SparkConf
from pyspark.sql import SparkSession


spark = (SparkSession.builder
        .master("yarn")
        .appName("myWork") 
        .config("spark.rpc.message.maxSize", "1024mb")
        .getOrCreate())

还是有问题。有什么建议吗?

标签: pyspark

解决方案


推荐阅读