python - 如何将高基数分类特征处理为预测机器学习模型的数值?
问题描述
我有两列具有高基数分类值,一列(area_id)有 21878 个唯一值,另一列有(page_entry)800 个唯一值。我正在构建一个预测 ML 模型来预测网页上的点击量。
列信息: area_id:会话期间访问过的所有位置。(具有网页不同区域的位置代码)
page_entry:描述会话的登陆页面。
除了 one_hot 编码之外,如何将这两列更改为数字?
谢谢你。
解决方案
一种方法是使用业务规则将您的分类级别分组到更小的存储桶中。对于您的功能area_id
,您可以简单地根据它们的地理位置对它们进行分组,比如说所有area_ids
来自单个地区(或就此而言任何其他聚合级别)将被单个id
. 同样,page_entry
您可以根据某些属性(例如运动、旅行等网页的性质)对相似的页面进行分组。通过这种方式,您可以显着减少变量的数量维度。
希望这可以帮助!
推荐阅读
- c# - C# 控制台,如何将已识别的变量从一个类访问到另一个类?
- c - 如何在运行时创建和排序单链表?
- java - where in 子句中没有值时如何执行查询
- python-3.x - Python float() 对科学记数法的限制
- asp.net-core-mvc - 如何在 .net core 2.0 ActionExecutingContext 中分配 Http 响应
- r - R:在 CRAN 中搜索包代码或本地安装
- c# - 如何防止人们不断循环 HTTP POST 到函数?
- ruby - 在 ruby 中读取的文件将输出作为字符中的空格
- android - 属性顺序乱了
- c# - 让用户键入位置 C#