python - 删除 .csv 中的所有行,除了第一个在列中具有重复单元格的行
问题描述
由于一些正则表达式错误,我在.csv
文件中有许多行相同但格式略有不同,URL 始终是公共变量。我需要在“tx”列中找到所有重复的 url,并删除除第一个之外的所有内容。
.csv
是〜50k行。系统是Windows。
我尝试了什么:
# importing pandas package
import pandas as pd
# making data frame from csv file
data = pd.read_csv("dupes.csv")
# dropping ALL duplicte values
df = data.drop_duplicates(subset ="TxHash\tx", keep = "first", inplace = True)
data.to_csv('nodupes.csv', index=False)
所有列的末尾都有 /t,不确定如何摆脱它们,还尝试了许多变体,包括使用 Pandas 设置新标题。尝试了许多解决方案,但大多数导致此错误:
raise KeyError(diff)
KeyError: Index(['TxHash\t'], dtype='object')
解决方案
中的默认分隔符read_csv
is ,
,因此对于 tab 是必要的 addsep='\t'
并且对于 inplace 操作返回None
,所以可能的 2 解决方案是删除它或不分配回:
data = pd.read_csv("dupes.csv", sep='\t')
df = data.drop_duplicates(subset ="TxHash")
print (df)
data.drop_duplicates(subset ="TxHash", inplace=True)
print (data)
推荐阅读
- assembly - 使用easy68K添加一系列整数的子程序
- android - 找不到资源样式/LaunchTheme
- c# - 在 Visual Studio 2017 中更改 MVC 文件夹结构
- python - stripe:如何将条带模型对象转换为 JSON 以获得完整的分层数据?
- python-3.x - 带有签名的芹菜和弦KeyError
- html - 具有只读输入我无法复制值
- asp.net - WebApi 返回序列化的 HttpResponseMessage 而不是 text/html
- python-3.x - 在python的'for'循环中计算NaN
- wordpress - WooCommerce - 不要授权或捕获新订单
- c# - 如何使用多线程或 c# 中的任何其他机制在 Windows 服务中同时处理多个请求?