首页 > 解决方案 > 计算excel文件中的电子邮件(python)

问题描述

我有一个 excel 文件,其中包含许多电子邮件,其中一些写了不止一次。我需要计算这些电子邮件被重复了很多次。我如何通过使用 python 来做到这一点?

标签: pythonexcelpandas

解决方案


假设所有电子邮件都是“干净”的格式(不是带有拼写错误、额外空格等的自由文本字段)。

import pandas as pd

df = pd.DataFrame([
    ['add1','val1'],
    ['add2','val2'],
    ['add3','val3'],
    ['add1','val4']
    ],columns=['Address','Value'])


df.groupby('Address').count()

         Value
Address       
add1         2
add2         1
add3         1

除了您要分组的内容之外,DataFrame 还需要有列。

df = pd.DataFrame([['add1'],['add2'],['add3'],['add1']],columns=['Address'])

df.groupby('Address').count()

Empty DataFrame
Columns: []
Index: [add1, add2, add3]


你可以用 groupby 做的事情: https ://pandas.pydata.org/docs/reference/groupby.html

如何使用 groupby: https ://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html?highlight=groupby#pandas.DataFrame.groupby


推荐阅读