python - 计算excel文件中的电子邮件(python)
问题描述
我有一个 excel 文件,其中包含许多电子邮件,其中一些写了不止一次。我需要计算这些电子邮件被重复了很多次。我如何通过使用 python 来做到这一点?
解决方案
假设所有电子邮件都是“干净”的格式(不是带有拼写错误、额外空格等的自由文本字段)。
import pandas as pd
df = pd.DataFrame([
['add1','val1'],
['add2','val2'],
['add3','val3'],
['add1','val4']
],columns=['Address','Value'])
df.groupby('Address').count()
Value
Address
add1 2
add2 1
add3 1
除了您要分组的内容之外,DataFrame 还需要有列。
df = pd.DataFrame([['add1'],['add2'],['add3'],['add1']],columns=['Address'])
df.groupby('Address').count()
Empty DataFrame
Columns: []
Index: [add1, add2, add3]
你可以用 groupby 做的事情: https ://pandas.pydata.org/docs/reference/groupby.html
如何使用 groupby: https ://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html?highlight=groupby#pandas.DataFrame.groupby