scala - 我看不到使用 Spark 和 Scala 保存的 .csv 文件
问题描述
我正在尝试将我使用 SQL 和 Parquet 从 DataFrame 进行的查询结果保存到 .csv 文件中。
这就是我编写查询的方式:
这就是我保存数据的方式:
但假定的 .csv 文件输出在哪里看不到:
解决方案
要添加依赖项,请使用以下命令启动 spark shell:
spark-shell --packages com.databricks:spark-csv_2.10:1.5.0
使用以下命令读取您的 paraquet 文件:
val df = sqlContext.read.parquet("file:///home/mugdha/users.parquet")
应用过滤器,选择操作:
val filteredDF = df.select("name","favorite_color")
要保存过滤后的DF,您可以使用以下代码:
filteredDF.write.format("com.databricks.spark.csv").save("file:///home/mugdha/testSave")
在 testSave 文件夹中,您可以查看存储的 csv。
推荐阅读
- sqlite - Sqlite drop table 错误:数据库或磁盘已满
- javascript - 如何解决js中的异步操作
- rubygems - 订单标记为完成后,购物车在狂欢中不清楚
- firebase - Flutter firebase error 发生异常。LateError(LateInitializationError:本地“firebaseUser”尚未初始化。)
- android - 面临 ListView 重复元素的问题
- shopify - 有人可以告诉我如何阻止 Inspector 检查 Kola Inspectors 等 Shopify 商店吗?
- c++ - select_many 的 cpplinq 示例
- android - android kernel superuser without userspace su
- php - How to delete an item of a nested array?
- spring-boot - How to referer in spring-boot-starter-thymeleaf project other html resources from JAR dependencies