首页 > 解决方案 > 尝试以 json 格式对我的数据进行分析。到目前为止,我的代码如下,我的问题是如何加入我的所有数据,请帮助我是 python 新手

问题描述

这就是我到目前为止所做的

import os, json
import pandas as pd

path_to_json = 'C:\\Users\\Mohammed Al kinoon\\Desktop\\Research Data\\VCDB-master\\VCDB-master\\data\\json\\validated'

json_files = [pos_json for pos_json in os.listdir(path_to_json) if pos_json.endswith('.json')]
print(json_files)

输出 在此处输入图像描述

标签: pythonjson

解决方案


对于熊猫,我推荐以下内容:

data_frames = [pd.read_json(file) for file in json_files]

combined_df = pd.concat(data_frames).reset_index(drop=True)

这假设所有文件都遵循相同的格式(列/键)并且可以放入内存中。如果它们遵循不同的格式,您应该将它们分成遵循相同格式的组。

如果它们太大而无法放入内存,我建议使用 Spark/pyspark。


推荐阅读