首页 > 解决方案 > 如何计算列中使用的前 3 个单词并将结果存储在字典中

问题描述

我目前有一个这样的数据框:

column_1:   column_2:    column_3:
  pizza       beer         nice, excellent, good
  pasta       beer         good, nice, great
  pizza       wine         great, nice
  fish        coffee       ok

我正在尝试获取 column_3 中出现的前 3 个单词并将它们存储到字典中。

我的预期输出:

{ 'nice': 3,
  'good': 2,
  'great':2 }

做这个的最好方式是什么?或者甚至有可能吗?

任何帮助深表感谢。

标签: pythonpandas

解决方案


使用get_dummies+nlargest

d=df['column_3:'].str.get_dummies(',').sum().nlargest(3).to_dict()
d
Out[225]: {'good': 2, 'great': 2, 'nice': 3}

推荐阅读