首页 > 解决方案 > Python:从多个 csv.gz 创建熊猫数据框,仅提取 von CSV 指定的列

问题描述

有几篇文章解释了如何遍历文件夹,或从给定的 zip 中提取所有(或:特定)文件,或从文件中的多个 CSV 创建 pandas 数据框。唉,我缺乏将所有这些代码片段组合成可行的东西的经验 - 有人可以帮助我吗?

我目前拥有的:

import gzip
import csv
import json
import pandas as pd

path =r'C:\\Users\\folder_with_zipped_files' 
File_List= glob.glob(path + "/*.csv.gz")
frame = pd.DataFrame()
list_ = []
for file_ in File_List:
    df = pd.read_csv(File_List, compression='gzip', header=0,sep=',',  error_bad_lines=False)
    collectfiles.append(df)
allfiles = pd.concat(collectfiles)

这会引发错误:

ValueError: Invalid file path or buffer object type: <class 'list'>

感谢一百万的任何建议和帮助-非常感谢!

标签: pythonpandasdataframe

解决方案


推荐阅读