apache-spark - Spark没有从文件夹中加载所有文件
问题描述
我正在尝试从一个文件夹中加载多个 JSON 文件,每个文件都以一个数字结尾,所以我在路径中使用了通配符 (*),这样 spark 会一一读取。
火花跳过几个文件而不加载所有文件。
我文件夹中的文件
raw_assignments = spark.read.option("multiline","true").json(r"Assignments_*.json")
assignments_df_all = raw_assignments.select("*").withColumn("page",input_file_name()).createOrReplaceTempView("check_files")
spark.sql("select distinct substring(page,90) from check_files").show()
低于输出
+-------------------------------+
|substring(page, 85, 2147483647)|
+-------------------------------+
| Assignments_6.json|
| Assignments_24.json|
| Assignments_5.json|
| Assignments_14.json|
| Assignments_17.json|
| Assignments_9.json|
| Assignments_13.json|
| Assignments_1.json|
| Assignments_7.json|
| Assignments_8.json|
| Assignments_23.json|
+-------------------------------+
我不明白为什么会跳过文件,我已经手动加载了每个文件以查找这些文件中是否有任何文件已损坏并且所有文件都是有效文件。
解决方案
推荐阅读
- javascript - 如何在javascript中通过url发布二维对象数组元素的索引?
- python - 管理 Python 项目中的路径
- html - 使用引导程序创建网格布局
- java - 无法将 IntelliJ 配置为使用 Java 11
- android - @UserScope 与 dagger-android
- azure-cosmosdb - gremlin 查询中的“请求太大”异常 [azure-cosmosdb]
- eclipse - CMake 工具包 .... 它们只是用于 VS Code 还是我也会将它们用于其他环境?
- python - 在两个键中合并df,只为一个键工作
- python - 为什么我的项目不允许用户退出程序?
- bash - bash 中 aws cli 的错误处理不会导致它退出