首页 > 解决方案 > 如何扩展基于 pyspark 的 ALS 模型?

问题描述

我一直在尝试使用 ALS(交替最小二乘模型)构建推荐引擎。不幸的是,该模型需要很长时间才能适应。大约 10k 用户和 50k 产品超过 20-30 分钟。我正在研究 apache spark(120 GB ram + 磁盘空间)。我正在为我的模型执行以下步骤。

  1. 收集评分数据
  2. 将数据转换为用户-项目矩阵(用户对每个已评分的产品进行评分,如果产品尚未评分,则为 0。)
  3. 拟合 ALS 模型 pyspark.mllib

我无法对模式进行超调,因为对于一个组合,大约需要 30 分钟,如果我正在运行网格搜索,那么一小时后,它要么显示会话过期,要么显示会话无效。

我已经尝试了一切以使其快速。但是没有什么效果那么好

我会请求帮助我扩展这个模型。

标签: pysparkapache-spark-mllibrecommendation-enginecollaborative-filteringals

解决方案


推荐阅读