首页 > 解决方案 > Spark没有从文件夹中加载所有文件

问题描述

我正在尝试从一个文件夹中加载多个 JSON 文件,每个文件都以一个数字结尾,所以我在路径中使用了通配符 (*),这样 spark 会一一读取。

火花跳过几个文件而不加载所有文件。

我文件夹中的文件

在此处输入图像描述

raw_assignments = spark.read.option("multiline","true").json(r"Assignments_*.json")

assignments_df_all = raw_assignments.select("*").withColumn("page",input_file_name()).createOrReplaceTempView("check_files")

spark.sql("select distinct substring(page,90)  from check_files").show()

低于输出

+-------------------------------+
|substring(page, 85, 2147483647)|
+-------------------------------+
|             Assignments_6.json|
|            Assignments_24.json|
|             Assignments_5.json|
|            Assignments_14.json|
|            Assignments_17.json|
|             Assignments_9.json|
|            Assignments_13.json|
|             Assignments_1.json|
|             Assignments_7.json|
|             Assignments_8.json|
|            Assignments_23.json|
+-------------------------------+

我不明白为什么会跳过文件,我已经手动加载了每个文件以查找这些文件中是否有任何文件已损坏并且所有文件都是有效文件。

标签: apache-sparkpysparkapache-spark-sqlpyspark-dataframesapache-spark-2.0

解决方案


推荐阅读