python - 由于额外的列值,尝试使用 pandas Python 读取 csv 时出错
问题描述
这是我试图摆脱的场景:
我正在尝试读取以下类型的 csv:
para1,para2,para3,para4
1,2,3,4,
1,2,3,4,5,
1,2,3,4,
2,3,4,5,6,7,8,9,0,
我正在使用以下命令并收到以下错误:
>>> import pandas as pd
>>> df =pd.read_csv("test.csv")
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "C:\Python35\lib\site-packages\pandas\io\parsers.py", line 702, in parser_f
return _read(filepath_or_buffer, kwds)
File "C:\Python35\lib\site-packages\pandas\io\parsers.py", line 435, in _read
data = parser.read(nrows)
File "C:\Python35\lib\site-packages\pandas\io\parsers.py", line 1139, in read
ret = self._engine.read(nrows)
File "C:\Python35\lib\site-packages\pandas\io\parsers.py", line 1995, in read
data = self._reader.read(nrows)
File "pandas\_libs\parsers.pyx", line 899, in pandas._libs.parsers.TextReader.read
File "pandas\_libs\parsers.pyx", line 914, in pandas._libs.parsers.TextReader._read_low_memory
File "pandas\_libs\parsers.pyx", line 968, in pandas._libs.parsers.TextReader._read_rows
File "pandas\_libs\parsers.pyx", line 955, in pandas._libs.parsers.TextReader._tokenize_rows
File "pandas\_libs\parsers.pyx", line 2172, in pandas._libs.parsers.raise_parser_error
pandas.errors.ParserError: Error tokenizing data. C error: Expected 4 fields in line 3, saw 5
我试图搜索这个问题并在 SO:
Python Pandas Error tokenizing data上得到了这个线程
所以,我试过了。这不是我所期待的。它正在截断值。
>>> df =pd.read_csv("test.csv",error_bad_lines=False)
b'Skipping line 3: expected 4 fields, saw 5\nSkipping line 5: expected 4 fields, saw 9\n'
>>> df
para1 para2 para3 para4
0 1 2 3 4
1 1 2 3 4
我想要的是这样的:
如果有额外的值,则将列作为整数值,在额外的列中找到最高的列。然后将其余值设为零(0)直到最后一列并读取 csv。
我期待的输出是这样的:
>>> df =pd.read_csv("test.csv")
>>> df
para1 para2 para3 para4 0 1 2 3 4
0 1 2 3 4 NaN NaN NaN NaN NaN
1 1 2 3 4 5.0 NaN NaN NaN NaN
2 1 2 3 4 NaN NaN NaN NaN NaN
3 2 3 4 5 6.0 7.0 8.0 9.0 0.0
>>> df = df.fillna(0)
>>> df
para1 para2 para3 para4 0 1 2 3 4
0 1 2 3 4 0.0 0.0 0.0 0.0 0.0
1 1 2 3 4 5.0 0.0 0.0 0.0 0.0
2 1 2 3 4 0.0 0.0 0.0 0.0 0.0
3 2 3 4 5 6.0 7.0 8.0 9.0 0.0
但请注意,我不想照顾专栏。相反,程序必须自动理解并制作上面给出的列标题。
其次,请尽量避免建议我写标题。因为可能有很多列我可能无法编写标题,而只是保持原样。所以缺少的列标题将是如上所述的数字整数。有人有任何查询的解决方案,请告诉我?
解决方案
我不确定是否有更清洁的方法可以做到这一点,但我对其进行了测试,它只使用 pandas 就可以工作:
df = pd.read_csv('test.csv', header=None, sep='\n')
df= df[0].str.split(',', expand=True)
new_header = df.iloc[0].fillna(df.columns.to_series())
df = df[1:]
df.columns = new_header
推荐阅读
- r - 在 R 中获取公历周数(类似于 Excel)
- mysql - Docker 提交实际上并没有提交
- python - 如何在单词之后和字符之前获取列表
- sql - 是否可以在 psql 中为表创建全局别名?
- azure-ad-b2c - Azure B2C - 基于电子邮件域的用户不同品牌
- c# - EventHub Azure 函数正确触发,但 EventData.Body 为 0 字节
- amazon-web-services - AWS Athena 错误:CREATE TABLE 上的 INTERNAL_ERROR_QUERY_ENGINE
- amazon-web-services - CloudFront 报告 apple-app-site-association(深度链接)的 5xx 错误,即使源服务器返回 HTTP 200
- c# - C# Mongodb 将 BsonDocument 类型列表反序列化为类类型列表
- c# - 在 Asp.Net Core 中实现是/否菜单的好方法是什么?