首页 > 解决方案 > 高基数数据的挑战

问题描述

背景:我正在将票务系统数据中的数据分类为失败或成功的请求。请求在完成之前会进入各个阶段。每个请求在被标记为完成之前都会分配给不同的团队和个人。利用历史数据,我想在它们被标记为完成(成功或失败)之前在最终状态 x 为这些票创建预测。

在各种特征中,处理记录的个人姓名和团队名称是分析此数据的非常重要的因素。作为一个庞大的组织,我预计每天都会添加 5-10 个新名称。

历史数据

60k 条记录(用于训练、验证和测试)有 10k 个唯一的个人名称

当前数据 总共 1k 条记录 - 有 200 个个人姓名

由于高基数数据(例如数量不固定且不断增长的个人姓名),我面临着挑战。1. 在做出实际预测的同时挑战 - 没有。当前数据的列数每次都会不同,并且永远不会匹配训练数据的特征长度。- 所以我必须每次都训练我的模型,我想做预测。2. 数据准备时的挑战 - 上述内容也对数据准备提出了挑战,因为现在我总是必须对完整数据和查询编码数据进行编码以拆分为当前数据和未来数据。

对不起,故事很长。

我在找什么?

有没有更好的方法来接近?这些高且不断变化的维度是一种痛苦。关于如何处理它们的任何建议,以避免每次都进行培训?

注意:我尝试将 PCA 和自动编码器用于暗红色。(结果对于我高度不平衡的数据集来说不是很好,所以我只处理高维数据)

标签: pythonmachine-learningdata-sciencedimensionality-reductioncardinality

解决方案


既然你有你所说的动态数据,你可以使用神经网络来识别和合并更新变量和数据。

你也应该使用分类器,比如

  1. CVParameterSelection :用于交叉验证参数选择。

  2. 部分:用于制作决策树,非常有用,因为它适用于分而治之的规则。

  3. REP 树(修剪):通过拆分错误值来减少输出中的错误

最后,当您的系统到位后,您就可以运行预测模型了!


推荐阅读