apache-spark - 如何从 Spark 正确读取 S3 中的 .csv 文件?- 无法读取文件的页脚
问题描述
我们正在尝试使用 Spark 在 S3 中读取 .csv 文件,但出现此错误:
py4j.protocol.Py4JJavaError: An error occurred while calling o32.load.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 4 times, most recent failure: Lost task 0.3 in stage 0.0 (TID 3, 10.50.94.133, executor 0): java.io.IOException: Could not read footer for file: FileStatus{path=s3a://edl-dfs-sas-cecl-dev/output/dev/dev10/h2o/extend_subset.csv; isDirectory=false; length=897466691973; replication=0; blocksize=0; modification_time=0; access_time=0; owner=; group=; permission=rw-rw-rw-; isSymlink=false}
可以做些什么来避免这个错误?
解决方案
我能够从 spark 2.2 中的 pyspark shell 中完美阅读 检查屏幕截图。
无法复制问题。
推荐阅读
- download - 如何从 Google Colab 导出下载的文件?
- c# - form1.cs[design] 在 Visual Studio 2017 中消失了
- django - 我可以呈现标签的 id 而不是整页吗
- swift - Swift 5.0 中可选的无主引用与弱引用
- java - 为什么 TestNG 抱怨使用 @QAFDataProvider
- c# - NullableContextOptions 和 NullableReferenceTypes 有什么区别?
- android - 连接 Digital Persona U are U 指纹读取器
- java - 如何以矩阵格式排列输出?#java
- javascript - 银行应用类
- c - C如何将信息真正存储到文件中?