json - Dataframe.head() 需要永远
问题描述
我从 Blob 存储导入了一个 JSON 文件,大小约为 50GB。
dsm_temperature_df = spark.read.json(file_location, multiLine=True)
在导入 Databricks spark 数据帧后,大约需要 40 分钟,我想用df.head()
. 不幸的是,这需要永远。我让它运行了 60 分钟,但后来我停止了它。我在这里做错了吗?
PS:我发现对于一个包含大约 1GB 的较小 json 文件,执行df.head()
ordf.first()
方法需要 2 多分钟。对于 50GB 的 json,这意味着需要 100 多分钟才能获得第一行。这不可能是真的吧?
解决方案
问题出在之前的代码中。存在错误的数据转换,因此数据框已损坏。
推荐阅读
- java - Spring数据,通过嵌套对象的属性查找
- reactjs - 如何修复 react-native 中的 GET JSON 响应问题
- ios - 无法同时满足对 UITextField 的约束
- r - 如果没有可用的 UI 输入,则防止在 Shiny 中发生事件
- c# - 如何使用 Regex 和 C# 提取特定的 URL 段
- python - 检查目标时如何修复错误:预期activation_5有2维,但得到的数组具有形状(24943、50、50、1)
- azure - 如何阻止订阅所有者查看 keyvault 值
- node.js - 全局变量失去价值
- swift - Unexpected non-void return value in void function 错误,但函数设置为返回值
- mysql - 它只返回一行。如果我使用 group by 它会给我错误的输出