首页 > 解决方案 > Spark:生成txt文件

问题描述

我有以 parqueue 格式存储的数据,我想从 spark 生成分隔文本文件,每个文件的行限制为 100 行。这可以从火花笔记本上处理吗?我正在构建触发此笔记本的 ADF 管道,并且假设输出是类似于以下格式的文本文件,请建议我可能的方法。

5431732167 899 1011381 1 测试字符串 5431732163 899 912 测试字符串 5431932119 899 108808 40 测试字符串 5432032116 899 1082223 40 测试字符串

我还需要处理一批文本文件并将它们加载到数据库中,请建议执行此操作的选项。

提前致谢。

谢谢,马诺伊。

标签: apache-sparkapache-spark-sql

解决方案


这个问题似乎是一个功能重复:如何从数据帧中获取 1000 条记录并使用 PySpark 写入文件?

在运行您的作业以编写您的 CSV 文件之前,请maxRecordsPerFile在 Spark SQL 中设置:

set spark.sql.files.maxRecordsPerFile = 100

推荐阅读