首页 > 解决方案 > 如何在多天内处理来自多个来源的多个特征?

问题描述

我对 ML 比较陌生,所以我希望这不是太基础。

我在一家软件公司工作,希望为用户健康和留存率建模。基本上,每个用户都与我们签订为期 12 个月的合同。因此,对于每个用户,我们在他们与我们一起的 12 个月内都有一组他们的活动,在这 12 个月之后,他们要么续签合同(正面),要么从我们的服务中流失(负面)。

我想我可以建立一个有监督的分类模型,给出客户健康评分(满分 100 分),分数代表用户续签合同的百分比机会。理想情况下,该分数将查看一组 30 天的移动用户数据。这样,我们可以在合同早期为用户的健康评分建模,而不仅仅是续约时的健康评分。

然而,鉴于每个用户集本质上是一个包含日期与活动的庞大矩阵,我陷入了如何考虑组织数据的问题——因此如何考虑每个模型是积极的还是消极的。我应该在 python 中创建一个数据框数组吗?这里的前几个步骤是什么?

随意说我是否偏离轨道/吠叫错误的树,或者这不是寻求一般帮助而不是代码问题的错误论坛。谢谢!

标签: pythonmachine-learning

解决方案


推荐阅读