首页 > 解决方案 > Dataframe.head() 需要永远

问题描述

我从 Blob 存储导入了一个 JSON 文件,大小约为 50GB。

dsm_temperature_df = spark.read.json(file_location, multiLine=True)

在导入 Databricks spark 数据帧后,大约需要 40 分钟,我想用df.head(). 不幸的是,这需要永远。我让它运行了 60 分钟,但后来我停止了它。我在这里做错了吗?

PS:我发现对于一个包含大约 1GB 的较小 json 文件,执行df.head()ordf.first()方法需要 2 多分钟。对于 50GB 的 json,这意味着需要 100 多分钟才能获得第一行。这不可能是真的吧?

标签: jsonapache-spark-sqlazure-blob-storagedatabricks

解决方案


问题出在之前的代码中。存在错误的数据转换,因此数据框已损坏。


推荐阅读