首页 > 解决方案 > 将包含数千列的数据帧写入 HDFS 需要大量时间

问题描述

我正在尝试在 Spark 上执行一个 SQL 查询,该查询生成一个包含大约 10,000 列的表,并希望将其写入 HDFS 上的 parquet 文件:

trial = spark.sql(sqlQuery)
trial.write.mode('overwrite').option("delimiter", "\100").parquet("path/to/HDFS/trial.parquet)

似乎将表写入HDFS需要很多时间。为了提高效率,我能做些什么吗?

标签: pythonapache-sparkpysparkhdfsparquet

解决方案


推荐阅读