首页 > 解决方案 > 我看不到使用 Spark 和 Scala 保存的 .csv 文件

问题描述

我正在尝试将我使用 SQL 和 Parquet 从 DataFrame 进行的查询结果保存到 .csv 文件中。

这就是我编写查询的方式:

这就是我的查询方式

这就是我保存数据的方式:

在此处输入图像描述

但假定的 .csv 文件输出在哪里看不到:

在此处输入图像描述

标签: scalaapache-sparkapache-spark-sql

解决方案


要添加依赖项,请使用以下命令启动 spark shell:

spark-shell --packages com.databricks:spark-csv_2.10:1.5.0

使用以下命令读取您的 paraquet 文件:

val df = sqlContext.read.parquet("file:///home/mugdha/users.parquet")

应用过滤器,选择操作:

val filteredDF = df.select("name","favorite_color")

要保存过滤后的DF,您可以使用以下代码:

filteredDF.write.format("com.databricks.spark.csv").save("file:///home/mugdha/testSave")

在 testSave 文件夹中,您可以查看存储的 csv。


推荐阅读