machine-learning - 我可以用包含(时间序列+分类+数字)和分类器因变量(0,1)的自变量构建一个机器学习模型吗
问题描述
假设我有多个访问我的汽车经销店的人的工资、工作概况、工作经验、家庭人数、其他人口统计等数据,如果他/她从我与否。
我可以利用这个数据集来预测新客户是否有可能购买汽车。假设目前我正在使用 xgboost 来做这件事。
现在,我得到了额外的数据,但这是一个人每月支出的时间序列数据。假设我也获得了训练数据的数据。现在我想建立一个模型,使用这个时间序列数据和旧的人口统计数据(+薪水,年龄等)来了解客户是否可能购买。
注意:在第二部分中,我只有每月支出的时间序列数据。其他变量是在某个时间点。例如,我没有薪水或年龄的时间序列。
注意 2:我还有一些分类变量,比如我想在模型中使用的职业档案。但为此,我不知道该人是否曾在同一份工作资料中,或者他是否已从其他工作资料中转换。
解决方案
由于大多数数据都是针对个人的;除了支出时间序列,所以最好带个人级别的时间序列数据。这可以通过特征工程来完成,例如:
- 正如@cmxu 建议的那样,采取各种统计措施。以不同的时间间隔采取这些统计措施将更加有益,例如最近 2 天、5 天、7 天、15 天、30 天、90 天、180 天等的平均值。
创建混合特征,例如:a)在第 1 点创建的工资与支出统计摘要的比率(选择适当的间隔) b)每个家庭的工资或每个家庭的平均每月支出。等等
使用类似的想法,您可以轻松地使用您的数据创建 100 或 1000 个特征,然后将所有这些数据提供给 XGBoost(易于训练和调试)或 NN(更复杂的训练)。
推荐阅读
- c++ - 关于 shared_ptr 引用计数块
- reactjs - 如何在 ReactJS + Typescript 中应用 IIFE?
- python - Selenium chromedriver PATH 错误无法解决
- python - IntegrityError / NOT NULL 约束失败
- python-3.x - 如何从现有的python文件导入数据以在python 3中写入新的csv文件
- c# - 在 Winforms 中用 C# 定义正确方法和公式的代码问题
- ios - Automated convert string into date
- bash - How to translate the wslpath /home/user/ to windows path
- javascript - 在查找时间差时使用用户输入的日期
- python - Python logger file permissions