azure - 如何在 Azure Spark 群集中使用 pyspark 覆盖文件

问题描述

我正在使用以下脚本将 SPARQL 查询的结果输出到 Azure 数据存储中的文件。但是，该脚本不是创建一个名为myresults.json并将结果发布到该myresults.json文件的文件，而是将结果发布到一个随机文件名part-0000-tid，如下图所示：

代码如下：

example1 = spark.sql("""SELECT
  CF.CountryName AS CountryCarsSold
 ,COUNT(CF.CountryName) AS NumberCountry
 ,MAX(CB.SalesDetailsID) AS TotalSold
FROM Data_SalesDetails CB
INNER JOIN Data_Sales CD
  ON CB.SalesID = CD.SalesID
INNER JOIN Data_Customer CG
  ON CD.CustomerID = CG.CustomerID
INNER JOIN Data_Country CF
  ON CG.Country = CF.CountryISO2
GROUP BY CF.CountryName""")
example1.coalesce(1).write.mode("append").json("adl://carlslake.azuredatalakestore.net/jfolder2/outputfiles/myoutput3/myresults.json")

有人可以让我知道如何保存为单个文件，并且每次保存时都会覆盖每个文件。

谢谢

标签： azurepythonapache-spark

azure - 如何在 Azure Spark 群集中使用 pyspark 覆盖文件

问题描述

解决方案

推荐阅读