pyspark - 如何扩展基于 pyspark 的 ALS 模型?
问题描述
我一直在尝试使用 ALS(交替最小二乘模型)构建推荐引擎。不幸的是,该模型需要很长时间才能适应。大约 10k 用户和 50k 产品超过 20-30 分钟。我正在研究 apache spark(120 GB ram + 磁盘空间)。我正在为我的模型执行以下步骤。
- 收集评分数据
- 将数据转换为用户-项目矩阵(用户对每个已评分的产品进行评分,如果产品尚未评分,则为 0。)
- 拟合 ALS 模型 pyspark.mllib
我无法对模式进行超调,因为对于一个组合,大约需要 30 分钟,如果我正在运行网格搜索,那么一小时后,它要么显示会话过期,要么显示会话无效。
我已经尝试了一切以使其快速。但是没有什么效果那么好
我会请求帮助我扩展这个模型。
解决方案
推荐阅读
- php - 表单提交导致PHP中的空白页面
- php - 在 $in 条件下使用正则表达式将 mongodb 查询转换为 lumenEloquent
- php - xampp 中的网站图标
- c - 如何用 C 中的另一个数组替换数组中的所有匹配项
- python - Python:使用 Elasticsearch Scan 获得超过 10,000 个结果 ScanError
- c# - 从数据库中删除一条记录
- ios - 加载 Webview 时显示图像
- java - RecyclerView 在其他视图之上没有触摸事件(覆盖)
- python - 有效地在 python 列表中查找 nlargest 元素的索引
- pandas - 尝试在传递的数组中调试混合的日期时间和整数