python - 无法在 AWS EMR 上使用 PySpark Dataframe 保存 CSV 文件
问题描述
我想用 gzip 压缩保存一个 CSV 文件。代码成功运行,但它静默失败 -即我看到提供的路径上没有文件。
我尝试读取应该成功保存的文件,但是运行命令后我得到的是“找不到这样的文件” file -i <path_to_the_file>
。
我编写 csv 文件的代码是:
>>> df
DataFrame[id: int, name: string, alignment: string, gender: string, eyecolor: string, race: string, haircolor: string, publisher: string, skincolor: string, height: int, weight: int, _paseena_row_number_: bigint, _paseena_timestamp_: timestamp, _paseena_commit_id_: string]
>>> df.write.csv('check_csv_post_so.csv')
>>>
现在,当我检查时,不存在文件。
我会使用一些 dfs 未知的方法,但问题是,我在其他机器上使用过 spark 并没有发现这样的问题。
我希望文件存在或代码失败并显示错误。
解决方案
我认为文件存储在 HDFS 上。尝试使用file://
或保存文件s3://
。或用于hdfs dfs -ls
查看文件是否存在。
推荐阅读
- jasper-reports - 如何在 jasperreport 中水平拉伸字段?
- layout - SwiftUI:相对于中心视图进行布局
- python - Python pandas:只用前一个列名更改下一个未命名的列
- node.js - GCP:dispatch.yaml 路由限制
- reactjs - 为 easyUI DateBox React 组件添加样式
- php - 使用 php 从 db 获取值的 AJAX 获取方法问题
- c++ - 使用 `using` 或其他方式显式实例化函数模板
- python-3.x - 如何使用 Windows 批处理文件执行 Python entry_point 脚本?
- ios - Firebase 用户重新身份验证初始化错误
- excel - Excel求解器说明