首页 > 解决方案 > Pandas read_csv 在第一个换行符处结束读取

问题描述

我正在尝试读取顶部有一些垃圾的 csv 文件,但有趣数据的底部也有垃圾。我需要读取多个文件,并且有趣数据的长度各不相同。有没有办法让pd.read_csv命令知道数据帧在第一个换行符处结束?

示例数据(来自 excel 的屏幕截图): 示例数据

我阅读了文件: dataframe = pd.read_csv(file, skiprows=45) 这很好地给了我一个包含 10 列的数据框,第 46 行的标题(见图)。但是,它比#GARBAGE DATA 行更进一步。

重要提示:在我要读取的不同文件中,数据的长度和页脚的长度都不相等。

标签: pythonpandas

解决方案


有两种方法可以实现这个

1) 使用 read csv 的 skipfooter 参数,它告诉函数要跳过的文件底部的行数

pd.read_csv("in.csv",skiprows=45,skipfooter=2)

2)按原样读取文件,然后使用 dropna 函数,这应该删除垃圾值。

df.dropna(inplace=True)

推荐阅读