首页 > 解决方案 > 如何将高基数分类特征处理为预测机器学习模型的数值?

问题描述

我有两列具有高基数分类值,一列(area_id)有 21878 个唯一值,另一列有(page_entry)800 个唯一值。我正在构建一个预测 ML 模型来预测网页上的点击量。

列信息: area_id:会话期间访问过的所有位置。(具有网页不同区域的位置代码)

page_entry:描述会话的登陆页面。

除了 one_hot 编码之外,如何将这两列更改为数字?

谢谢你。

标签: pythonmachine-learningdata-sciencedata-cleaningdata-processing

解决方案


一种方法是使用业务规则将您的分类级别分组到更小的存储桶中。对于您的功能area_id,您可以简单地根据它们的地理位置对它们进行分组,比如说所有area_ids来自单个地区(或就此而言任何其他聚合级别)将被单个id. 同样,page_entry您可以根据某些属性(例如运动、旅行等网页的性质)对相似的页面进行分组。通过这种方式,您可以显着减少变量的数量维度。

希望这可以帮助!


推荐阅读