python - 从 pandas 数据框中获取统计信息:按日期划分的唯一字段
问题描述
我想计算一个数据集中有多少个经过验证的网址。
Date Urls Verified
12/03/2020 www.stackoverflow.com True
12/03/2020 www.google.com True
12/03/2020 www.youtube.com True
12/03/2020 www.bients.com False
13/03/2020 www.google.com True
13/03/2020 www.amazon.com True
14/03/2020 www.bients.com False
14/03/2020 www.Breaking-CNN.com False
等等。
我想得到:
- 按日期划分的已验证 URL 的数量(已验证 = True);
- 已验证的网址总数。
但是,我需要从计数中删除重复项。我的预期输出是:
12/03/2020 Verified: 3
Not Verified: 1
13/03/2020 Verified: 2
Not Verified: 0
14/03/2020 Verified: 0
Not Verified: 2
已验证总数:4(我应该避免重复,例如 www.google.com 或 www.bients.com)未验证总数:2
我怎么能得到这些结果?我认为使用 unique 和 groupby 但我不明白顺序。
解决方案
我们可以做drop_duplicates
,groupby
+value_counts
s=df.drop_duplicates().groupby('Date').Verified.value_counts().unstack(fill_value=0).stack()
Date Verified
12/03/2020 False 1
True 3
13/03/2020 False 0
True 2
14/03/2020 False 2
True 0
dtype: int64
推荐阅读
- javascript - 如何在反应中利用子组件中的状态值
- python - Python我如何在BeautifulSoup中提取具有相同类名的数据
- c++ - c++ - 如何将字符串中的所有大写字母转换为小写字母,反之亦然?
- reactjs - 在.map(Reactjs)中添加if条件后收到错误“期望赋值或函数调用,而是看到表达式”
- mysql - 在一个 SQL 查询中合并(合并)两个表中的两列
- regex - PCRE Regexp - 仅匹配一对方括号
- c++ - 新分配指向函数的指针是否合法?
- api - Sonarqube API 调用错误响应
- vue.js - vue如何将文件发送到后端
- c# - 无法使用 amqmdnetstd.dll 连接到 MQ