apache-spark - Spark:生成txt文件
问题描述
我有以 parqueue 格式存储的数据,我想从 spark 生成分隔文本文件,每个文件的行限制为 100 行。这可以从火花笔记本上处理吗?我正在构建触发此笔记本的 ADF 管道,并且假设输出是类似于以下格式的文本文件,请建议我可能的方法。
5431732167 899 1011381 1 测试字符串 5431732163 899 912 测试字符串 5431932119 899 108808 40 测试字符串 5432032116 899 1082223 40 测试字符串
我还需要处理一批文本文件并将它们加载到数据库中,请建议执行此操作的选项。
提前致谢。
谢谢,马诺伊。
解决方案
这个问题似乎是一个功能重复:如何从数据帧中获取 1000 条记录并使用 PySpark 写入文件?
在运行您的作业以编写您的 CSV 文件之前,请maxRecordsPerFile
在 Spark SQL 中设置:
set spark.sql.files.maxRecordsPerFile = 100
推荐阅读
- javascript - 如何将 html 形状拖入 mxgraph 画布
- php - CdeIgniter 数据库操作
- javascript - ReferenceError:要求未在电子渲染器中定义
- java - 在类路径资源 [net/rakugakibox/spring/boot/orika/OrikaAutoConfiguration.class] 中定义名称为“orikaMapperFacade”的 bean 创建错误
- xslt-2.0 - 另一个模板的结果上的 XSLT 2.0 调用模板
- android - 如何提高 Android 中的内容解析器查询速度?
- r - 当 col.names=FALSE 指定时 write.txt 不断添加 col.names
- reactjs - 传递查询参数时反应路由问题
- google-apps-script - 如何在谷歌应用脚本中安全地存储 3rd 方 api 凭据
- karate - 想在空手道 DSL 中尝试 JSON 模式验证中的一个条件