python - Pandas read_csv 创建尾随未命名列,而不是读取整个 csv 文件
问题描述
我在这里发现了一些类似的问题,但没有一个能解决我的问题。我有一个 csv 文件,其中一列包含一些长字符串,另一列包含一些短字符串。当我读到它时
df = pd.read_csv(file_path, encoding = 'UTF-8')
我有:
text colA colB colC colD Unnamed: 5 Unnamed: 6 Unnamed: 7 Unnamed: 8 Unnamed: 9 Unnamed: 10
但我在 csv 文件中只有text colA colB colC colD
这些列。
我认为我可以删除那些未命名的列很好,但我发现我得到df.shape
的是(180106, 11)
\ 但是,我的 csv 文件大约有 270000 行。我不知道这两个问题是否相互关联。
我试图quoting=csv.QUOTE_NONE
在 read_csv 添加一个选项这给了我:
b'Skipping line 17: expected 11 fields, saw 12\nSkipping line 18: expected 11 fields, saw 12\nSkipping line 19: expected 11 fields, saw 12\
这会跳过更多行,使其比 180106 行更少
我认为这可能与 CSV 文件的解析方式有关,但我不知道如何才能完全阅读它。抱歉,CSV 文件中的数据很敏感,所以我无法分享样本。
解决方案
只需将 csv 文件带到您正在工作的文件名
df=pd.read_csv("file_name")
df.isnull().sum()
df.describe()
df.info()
by 为 null 您可以通过使用 descrbive 获得 所有数据列的真实值的总和通过使用 info 获得数据的统计描述如果没有显示数据信息,您将获得所有数据详细信息 数据信息 delate 数据并再次下载
推荐阅读
- firebase - 是否可以在 Flutter 中使用 FCM 实现通知分组/捆绑?
- swift - 如何删除 URL 的FirstPathComponent?
- javascript - 尝试让 JavaScript 在单击时使图像变大,仅适用于第一张图像
- html - 使用引导程序的波浪形底部看起来很奇怪
- python - 如何向在单独线程上运行的烧瓶服务器发出发布请求
- python - 我正在尝试从 python selenium 的下拉列表中选择一个值,但无法做到。请指导
- docker - 为什么我可以通过主机 Web 浏览器中的 localhost 访问我的 Docker-Compose 容器,但不能在容器中访问?
- batch-file - 如何执行批处理以合并通道
- selenium - 在 Jenkins 中按顺序运行多个功能
- spring-boot - 如何在 Springboot 中构建 API url