python - Pandas 0.22.0 版 - drop_duplicates() 有一个意外的关键字参数“keep”
问题描述
我正在尝试使用 drop_duplicates(subset=[''], keep=False) 在我的数据框中删除重复项。显然它在我的 Jupyter Notebook 中工作正常,但是当我尝试通过终端作为 .py 文件执行时,我收到以下错误:
Traceback (most recent call last):
File "/home/source/fork/PySpark_Analytics/Notebooks/Krish/beryllium_pandas.py", line 54, in <module>
dffsamelname = dffsameflname.drop_duplicates(subset=['INDIVIDUAL_LASTNAME'], keep=False)
File "/var/webeng/opensource/aetna-anaconda/lib/python2.7/site-packages/pandas/util/decorators.py", line 88, in wrapper
return func(*args, **kwargs)
TypeError: drop_duplicates() got an unexpected keyword argument 'keep'
检查熊猫版本是否> 0.18,因为当时引入了keep = false。
# Trying to drop both the records with same last name
dffsamelname = dffsameflname.drop_duplicates(subset=['INDIVIDUAL_LASTNAME'], keep=False)
我想删除被删除的两个记录。因此 keep=false 是必要的。
如果我删除keep = false,它就可以正常工作。
解决方案
可能您的对象不是原生 pandas 数据框,而是 pyspark 数据框。从这个http://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html#pyspark.sql.DataFrame.drop_duplicates看来,子集是唯一接受的参数。您可以添加导入和创建数据框的行吗?
推荐阅读
- excel - 匹配来自单独工作表的值 - 需要调整公式
- networking - Wireshark如何计算短帧数
- angular - Angular PWA 错误站点无法安装:未检测到匹配的服务人员
- javascript - 淘汰赛计算 Observable 上的 Foreach 绑定
- c# - 我将如何循环这个
- reactjs - 我们是否需要专门调用以前的状态来保留以前的值?
- python - 使用字典标签将图像映射到相应的名称
- html - 如何消除 HTML 表格中按钮行之间的垂直空间?
- sublimetext3 - 在 Sublime Text 中保存时自动运行命令
- node.js - MongooseTimeoutError:服务器选择在 30000 毫秒后超时