python - 将行附加到 DataFrame 的最快和最有效的方法是什么?
问题描述
我有一个大型数据集,我必须将其转换为 .csv 格式,它由 29 列和 1M+ 行组成。我认为随着数据框变大,将任何行附加到它会变得越来越耗时。我想知道是否有更快的方法来分享代码中的相关片段。
欢迎任何建议。
df = DataFrame()
for startID in range(0, 100000, 1000):
s1 = time.time()
tempdf = DataFrame()
url = f'https://******/products?startId={startID}&size=1000'
r = requests.get(url, headers={'****-Token': 'xxxxxx', 'Merchant-Id': '****'})
jsonList = r.json() # datatype= list, contains= dict
normalized = json_normalize(jsonList)
# type(normal) = pandas.DataFrame
print(startID / 1000) # status indicator
for series in normalized.iterrows():
series = series[1] # iterrows returns tuple (index, series)
offers = series['offers']
series = series.drop(columns='offers')
length = len(offers)
for offer in offers:
n = json_normalize(offer).squeeze() # squeeze() casts DataFrame into Series
concatinated = concat([series, n]).to_frame().transpose()
tempdf = tempdf.append(concatinated, ignore_index=True)
del normalized
df = df.append(tempdf)
f1 = time.time()
print(f1 - s1, ' seconds')
df.to_csv('out.csv')
解决方案
正如 Mohit Motwani 建议的那样,最快的方法是将数据收集到字典中,然后将所有数据加载到数据框中。下面是一些速度测量示例:
import pandas as pd
import numpy as np
import time
import random
end_value = 10000
用于创建字典列表并在最后将所有内容加载到数据框中的度量
start_time = time.time()
dictinary_list = []
for i in range(0, end_value, 1):
dictionary_data = {k: random.random() for k in range(30)}
dictionary_list.append(dictionary_data)
df_final = pd.DataFrame.from_dict(dictionary_list)
end_time = time.time()
print('Execution time = %.6f seconds' % (end_time-start_time))
执行时间 = 0.090153 秒
将数据附加到列表中并连接到数据框中的度量:
start_time = time.time()
appended_data = []
for i in range(0, end_value, 1):
data = pd.DataFrame(np.random.randint(0, 100, size=(1, 30)), columns=list('A'*30))
appended_data.append(data)
appended_data = pd.concat(appended_data, axis=0)
end_time = time.time()
print('Execution time = %.6f seconds' % (end_time-start_time))
执行时间 = 4.183921 秒
附加数据帧的测量:
start_time = time.time()
df_final = pd.DataFrame()
for i in range(0, end_value, 1):
df = pd.DataFrame(np.random.randint(0, 100, size=(1, 30)), columns=list('A'*30))
df_final = df_final.append(df)
end_time = time.time()
print('Execution time = %.6f seconds' % (end_time-start_time))
执行时间 = 11.085888 秒
使用 loc 对插入数据的测量:
start_time = time.time()
df = pd.DataFrame(columns=list('A'*30))
for i in range(0, end_value, 1):
df.loc[i] = list(np.random.randint(0, 100, size=30))
end_time = time.time()
print('Execution time = %.6f seconds' % (end_time-start_time))
执行时间 = 21.029176 秒
推荐阅读
- video - 有没有办法提高在 ffmpeg 中将字幕刻录到视频的速度
- java - 使用 Mono 从 JSON 获取多个对象
- excel - Excel VBA - Excel 2010 中的滚动区域运行时错误
- android - 在jetpack compose LazyColumn中获取最后一个可见的项目索引
- google-cloud-platform - 如何使用 pyspark 作为数据引擎提高 google bucket 到 google bigquery 之间的数据传输性能
- javascript - 是否可以制作一个在网站更改时创建警报的书签?
- javascript - 将冗余对象分组到数组js中
- angular - 我如何收听由 Google Maps 中的代码创建的 Polygon 的 insert_at
- python - 在 Pandas 列中拆分浮点数列表后获取精度的整数小数位数
- r - R闪亮的ggplot与if条件多层