python-3.x - Pyspark:如何将火花数据帧转换为 json 并将其保存为 json 文件?
问题描述
我正在尝试将我的 pyspark sql 数据帧转换为 json,然后另存为文件。
df_final = df_final.union(join_df)
df_final 包含这样的值:
我尝试过这样的事情。但它创建了一个无效的 json。
df_final.coalesce(1).write.format('json').save(data_output_file+"createjson.json", overwrite=True)
{"Variable":"Col1","Min":"20","Max":"30"}
{"Variable":"Col2","Min":"25,"Max":"40"}
我预期的文件应该有如下数据:
[
{"Variable":"Col1",
"Min":"20",
"Max":"30"},
{"Variable":"Col2",
"Min":"25,
"Max":"40"}]
解决方案
因为pyspark
您可以直接将您的数据帧存储到 json 文件中,无需将数据帧转换为 json。
df_final.coalesce(1).write.format('json').save('/path/file_name.json')
并且您仍然想将您的数据帧转换为 json 然后您可以使用
df_final.toJSON()
.
推荐阅读
- javascript - JavaScript 函数序列
- node.js - 我可以将 Firestore 数据导出到本地文件路径而不是 Cloud Storage 路径吗?
- awk - 哇;当两个文件共享一个公共标题时从两个文件中获取多行
- google-cloud-platform - 如何将 bigquery 表中的 16000 多行作为 CSV 文件导出到本地机器?
- java - 使用 TLS 的 Java 中的 Eclipse Paho MQTT 客户端
- swift - Swift 5:按下按钮时如何添加文本和日期?
- excel - 使用 VBA Excel 宏自动填充工作表顺序
- javascript - 尽管已连接,但我的 SCSS 文件无法正常工作,并且 firefox 开发人员编辑向我显示所有属性都正常
- python - 发送 HTTP 多部分/表单数据响应
- r - 如何在整个向量上运行一组条件