python - 将火花数据帧转换为平面文件 .csv
问题描述
我有一个 spark 数据框(以下简称spark_df
),我想将其转换为.csv
格式。我尝试了以下两种方法:
spark_df_cut.write.csv('/my_location/my_file.csv')
spark_df_cut.repartition(1).write.csv("/my_location/my_file.csv", sep=',')
我没有收到任何错误消息,并且都完成了[似乎],但我在目标位置找不到任何输出文件!.csv
有什么建议吗?
我在使用 spark '2.3.1' 的基于云的 Jupyternotebook 上。
解决方案
spark_df_cut.write.csv
将文件保存为零件文件。spark中没有直接的解决方案可以保存为.csv文件,可以直接用xls或其他文件打开。但是有多种解决方法可用一种解决方法是将 spark Dataframe 转换为 panda Dataframe 并使用to_csv
如下方法
df = spark.read.csv(path='game.csv', sep=',')
pdf = df.toPandas()
pdf.to_csv(path_or_buf='<path>/real.csv')
这会将数据保存为 .csv 文件
另一种方法是使用 hdfs 命令打开文件并将其放入文件中。如果您需要更多帮助,请发布
推荐阅读
- python - 使用 xarray 获取 netcdf 文件的平均值
- c++ - C++ 类头文件和包含
- c++ - 是否通过使用数字文字调用函数来创建临时对象?
- r - 在R中按组计算日期?
- javascript - 如何在 html 中使用带有 bootstrap 4 的 2 个下拉过滤器
- javascript - Javascript更改内部HTML
- python - 像 PyCharm 一样在 VS Code 上安装(或建议)缺少导入的 Python 模块
- clojure - 测试某物是否为空列表
- .net - 用于 .Net Framework 和 .Net Core 的 TeamCity 和 SonarQube 依赖项检查器
- copy - 如何将一组页面插入到 Kofax Capture 中现有批次中的所有现有文档中