首页 > 解决方案 > Pandas read_csv 创建尾随未命名列,而不是读取整个 csv 文件

问题描述

我在这里发现了一些类似的问题,但没有一个能解决我的问题。我有一个 csv 文件,其中一列包含一些长字符串,另一列包含一些短字符串。当我读到它时

df = pd.read_csv(file_path, encoding = 'UTF-8')

我有:

text    colA     colB    colC   colD      Unnamed: 5    Unnamed: 6  Unnamed: 7  Unnamed: 8  Unnamed: 9  Unnamed: 10

但我在 csv 文件中只有text colA colB colC colD这些列。

我认为我可以删除那些未命名的列很好,但我发现我得到df.shape的是(180106, 11)\ 但是,我的 csv 文件大约有 270000 行。我不知道这两个问题是否相互关联。

我试图quoting=csv.QUOTE_NONE在 read_csv 添加一个选项这给了我:

b'Skipping line 17: expected 11 fields, saw 12\nSkipping line 18: expected 11 fields, saw 12\nSkipping line 19: expected 11 fields, saw 12\

这会跳过更多行,使其比 180106 行更少

我认为这可能与 CSV 文件的解析方式有关,但我不知道如何才能完全阅读它。抱歉,CSV 文件中的数据很敏感,所以我无法分享样本。

标签: pythonpandascsv

解决方案


只需将 csv 文件带到您正在工作的文件名

df=pd.read_csv("file_name")
df.isnull().sum()
df.describe()
df.info()

by 为 null 您可以通过使用 descrbive 获得 所有数据列的真实值的总和通过使用 info 获得数据的统计描述如果没有显示数据信息,您将获得所有数据详细信息 数据信息 delate 数据并再次下载


推荐阅读