azure - 如何在 Azure Spark 群集中使用 pyspark 覆盖文件
问题描述
我正在使用以下脚本将 SPARQL 查询的结果输出到 Azure 数据存储中的文件。但是,该脚本不是创建一个名为myresults.json
并将结果发布到该myresults.json
文件的文件,而是将结果发布到一个随机文件名part-0000-tid
,如下图所示:
代码如下:
example1 = spark.sql("""SELECT
CF.CountryName AS CountryCarsSold
,COUNT(CF.CountryName) AS NumberCountry
,MAX(CB.SalesDetailsID) AS TotalSold
FROM Data_SalesDetails CB
INNER JOIN Data_Sales CD
ON CB.SalesID = CD.SalesID
INNER JOIN Data_Customer CG
ON CD.CustomerID = CG.CustomerID
INNER JOIN Data_Country CF
ON CG.Country = CF.CountryISO2
GROUP BY CF.CountryName""")
example1.coalesce(1).write.mode("append").json("adl://carlslake.azuredatalakestore.net/jfolder2/outputfiles/myoutput3/myresults.json")
有人可以让我知道如何保存为单个文件,并且每次保存时都会覆盖每个文件。
谢谢
解决方案
推荐阅读
- javascript - 从 iframe 重定向时,在 React App 中恢复相同的状态
- sql - SQL 子查询中的“未处理的表达式类型”
- r - 分组数据帧上的窗口函数在过滤后获得两行之间的差异
- python - 用 django 提交动态双列表框
- python - 在python中对图像坐标进行排序
- python - PygObject 和 INTERP_BILINEAR
- sql - SSRS 报告 - 行组和列组的矩阵报告问题
- for-loop - 在 Scilab 中使用“for 循环”,尤其是在练习中(如下所述)
- c# - 将日期格式化为正确的字符串不起作用
- visual-studio - Visual Studio 中有没有办法防止 ClickOnce publish.htm 页面被用户的浏览器缓存