python - 将包含数千列的数据帧写入 HDFS 需要大量时间
问题描述
我正在尝试在 Spark 上执行一个 SQL 查询,该查询生成一个包含大约 10,000 列的表,并希望将其写入 HDFS 上的 parquet 文件:
trial = spark.sql(sqlQuery)
trial.write.mode('overwrite').option("delimiter", "\100").parquet("path/to/HDFS/trial.parquet)
似乎将表写入HDFS需要很多时间。为了提高效率,我能做些什么吗?
解决方案
推荐阅读
- php - 我想显示 10 个数据中最大的数组 5
- php - PHP 文件不被解析并以 application/x-httpd-php 而不是 JSON 响应
- javascript - 未捕获的 ReferenceError:未使用 Google 跟踪代码管理器定义 snaptr?
- python - 用于连接多个不同 QTableView 的 PyQt 模型?
- android - 防止重复的 Google Maps API 标记使用 ValueEventListener Firebase
- php - 大型功能的另一种更有效的方法
- mysql - MySQL 索引在一个表中工作,在使用 IN 时不能在另一个表中工作
- excel - 如何将数组传递给函数
- mongodb - 如何优化查询 MongoDB 查询的嵌套条件
- react-native - 如何在段落中使 textAlign 居中