首页 > 解决方案 > 如何在 Python 中最好地展平 NDJson 数据

问题描述

我有一个巨大的 NDJson 格式数据文件 (>400MB),我喜欢将其展平为表格格式以供进一步分析。

我开始手动迭代各种对象,但有些对象相当深,甚至可能会随着时间而改变,所以我希望有一种更通用的方法。

我确信 pandas lib 会提供一些东西,但找不到任何对我有帮助的东西。此外,我发现的其他几个库似乎没有“完全”提供我所希望的(flatten_json)。这一切似乎还很早。

目前是否有可能没有很好的(快速和简单的)解决方案?

任何帮助表示赞赏

标签: pythonndjson

解决方案


pandasread_json有一个 bool 参数lines,将其设置为 True 以读取 ndjsons

data_frame = pd.read_json('ndjson_file.json', lines=True)


推荐阅读