python - 将熊猫数据框列映射到字典
问题描述
我有一个包含高基数(许多唯一值)的分类变量的数据框。我想将该变量重新编码为一组值(最常见的值),并将所有其他值替换为一个包罗万象的类别(“其他”)。举一个简单的例子:
以下是应保持不变的两个值:
top_values = ['apple', 'orange']
我根据它们在以下数据框列中的频率建立了它们:
{'fruits': {0: 'apple',
1: 'apple',
2: 'orange',
3: 'orange',
4: 'banana',
5: 'grape'}}
该数据框列应重新编码如下:
{'fruits': {0: 'apple',
1: 'apple',
2: 'orange',
3: 'orange',
4: 'other',
5: 'other'}}
怎么做?(数据框有数百万条记录)
解决方案
推荐阅读
- javascript - 这个表示三重求和的三重 for 循环有什么问题?
- spring - 扩展时 CommonsRequestLoggingFilter 不记录
- swift - 您可以删除 PDFView 后面的支持文档文件吗
- module - 为模块分配签名
- javascript - 在从 API 获取数据之前在 Javascript 中使用变量
- sql - 比较两个表的两个变量并获取两个变量中单行中的值在第一个表中但不在第二个表中的行
- python - 使用 discord.py 获取不和谐频道的 ID
- linux - 为什么`export`创建的变量是空的?
- sass - 不理解 scss 中的根语法
- karate - 空手道 UI 自动化“关键”未定义