首页 > 解决方案 > 如何在 Azure Spark 群集中使用 pyspark 覆盖文件

问题描述

我正在使用以下脚本将 SPARQL 查询的结果输出到 Azure 数据存储中的文件。但是,该脚本不是创建一个名为myresults.json并将结果发布到该myresults.json文件的文件,而是将结果发布到一个随机文件名part-0000-tid,如下图所示:

pyspark

代码如下:

example1 = spark.sql("""SELECT
  CF.CountryName AS CountryCarsSold
 ,COUNT(CF.CountryName) AS NumberCountry
 ,MAX(CB.SalesDetailsID) AS TotalSold
FROM Data_SalesDetails CB
INNER JOIN Data_Sales CD
  ON CB.SalesID = CD.SalesID
INNER JOIN Data_Customer CG
  ON CD.CustomerID = CG.CustomerID
INNER JOIN Data_Country CF
  ON CG.Country = CF.CountryISO2
GROUP BY CF.CountryName""")
example1.coalesce(1).write.mode("append").json("adl://carlslake.azuredatalakestore.net/jfolder2/outputfiles/myoutput3/myresults.json")

有人可以让我知道如何保存为单个文件,并且每次保存时都会覆盖每个文件。

谢谢

标签: azurepythonapache-spark

解决方案


推荐阅读