首页 > 解决方案 > 我可以用包含(时间序列+分类+数字)和分类器因变量(0,1)的自变量构建一个机器学习模型吗

问题描述

假设我有多个访问我的汽车经销店的人的工资、工作概况、工作经验、家庭人数、其他人口统计等数据,如果他/她从我与否。

我可以利用这个数据集来预测新客户是否有可能购买汽车。假设目前我正在使用 xgboost 来做这件事。

现在,我得到了额外的数据,但这是一个人每月支出的时间序列数据。假设我也获得了训练数据的数据。现在我想建立一个模型,使用这个时间序列数据和旧的人口统计数据(+薪水,年龄等)来了解客户是否可能购买。

注意:在第二部分中,我只有每月支出的时间序列数据。其他变量是在某个时间点。例如,我没有薪水或年龄的时间序列。

注意 2:我还有一些分类变量,比如我想在模型中使用的职业档案。但为此,我不知道该人是否曾在同一份工作资料中,或者他是否已从其他工作资料中转换。

标签: machine-learningtime-seriesclassification

解决方案


由于大多数数据都是针对个人的;除了支出时间序列,所以最好带个人级别的时间序列数据。这可以通过特征工程来完成,例如:

  1. 正如@cmxu 建议的那样,采取各种统计措施。以不同的时间间隔采取这些统计措施将更加有益,例如最近 2 天、5 天、7 天、15 天、30 天、90 天、180 天等的平均值。
  2. 创建混合特征,例如:a)在第 1 点创建的工资与支出统计摘要的比率(选择适当的间隔) b)每个家庭的工资或每个家庭的平均每月支出。等等

    使用类似的想法,您可以轻松地使用您的数据创建 100 或 1000 个特征,然后将所有这些数据提供给 XGBoost(易于训练和调试)或 NN(更复杂的训练)。


推荐阅读