python-3.x - 计算 Pandas 数据框中不同行数的最简单方法?
问题描述
我已经做了:
len(my_df.drop_duplicates())
没有更优雅的方法来做到这一点吗?在 R 中你可以这样做:
nrow(distinct(my_df))
对我来说,哪一个非常易读,drop_duplicates() 令人担忧,因为作为新的 Python 用户,我迷失了正在发生的操作以及需要存储/覆盖环境副本以保持更改的操作。
事实上,在谷歌上搜索并没有给我一个明确的一键式答案,我认为这是一个简单的功能,这让我有点担心......
谢谢!
解决方案
在pandas
您可以通过其他方式groupby
或duplicated
使用sum
df.groupby(list(df)).ngroup()
(~df.duplicated()).sum()
同样作为一个R
和python
用户,我知道这很难从 to 切换R
,pandas
但最常见的方式是drop_duplicates
推荐阅读
- r - 从光栅文件获取坐标时避免圆形
- javascript - 使用车把助手生成新数组,并在 html 中使用新数组
- python - 浏览器加载时无响应窗口+文本未更改
- pyspark - 如何使用 pyspark 从 aws 胶水的时间戳中提取年份
- google-chrome - Selenium / Watir TCP 连接仅在 worker dyno heroku 上失败
- algorithm - 在连续数据中查找全局最小值
- php - Laravel 使用 Google Analytics - 使用未定义的常量
- java - 带有规范的 Spring 数据 jpa 限制结果
- java - JFMI,标量变量的数量,传递字符串
- javascript - 删除括号前后的所有空格