python - 创建数据框的最有效(最快)方法是什么?
问题描述
我正在做一个项目,该项目读取几千个文本文档,从中创建一个数据框,然后在数据框上训练一个模型。代码中最耗时的方面是数据框的创建。
这是我创建数据框的方式:
我首先创建 4-5 个列表,创建一个以 'Column-name' 为键和以前的列表作为值的字典。然后用pd.DataFrame
给字典。我在每个步骤之后添加了打印更新,并且数据框创建步骤花费的时间最多。
我正在使用的方法:
line_of_interest = []
line_no = []
file_name = []
for file in file_names:
with open(file) as txt:
for i, line in enumerate(txt):
if 'word of interest' in line:
line_of_interest.append(line)
line_no.append(i)
file_name.append()
rows = {'Line_no':line_no,'Line':line_of_interest,'File':file_name}
df = pd.DataFrame(data = rows)
我想知道是否有一种更有效、更省时的方法来创建数据框。我尝试寻找类似的问题,我唯一能找到的是“从 Web 抓取的数据创建 Pandas DataFrame 的最有效方法”。
让我知道是否有类似的问题有一个好的答案。我知道的创建数据框的唯一另一种方法是在我发现它们时逐行附加所有值,我不知道有一种方法可以检查是否更快。请告诉我。谢谢!