apache-spark - 具有 nutch 数据的本地模式下的 Apache Mahout 与 Apache Spark
问题描述
我已经在单模式下拥有 nutch/solr 应用程序。我是配偶尝试整合 Mahout 或 spark 以实现某种个性化的结果。但我离那个点还很远。
由于缺乏知识、时间和资源,是否有一种快速有效的方法来使用带有 Nutch 的 crawled.db 或 solr 索引数据的工具来表示个性化作为概念证明?
我对任何想法都持开放态度。
问候
解决方案
考虑到您说的是 Spark vs Mahout-我认为您正在考虑基于“旧” MR 的 Mahout,它已被弃用并移至“社区支持”。
我建议你使用 Mahout Samsara,它是一个 Spark 库。例如,我的回答是你应该使用 Mahout和Spark。但是对于本地模式,您可以只使用 Mahout Vectors / Matrices。
这个问题很模糊,但根据标签,我认为本教程可能是一个不错的起点,因为它使用 Mahout 和 Solr 作为推荐引擎。
http://mahout.apache.org/docs/latest/tutorials/cco-lastfm/
免责声明:我是 Apache Mahout 项目的 PMC。
推荐阅读
- reactjs - 如何在反应中集中错误消息
- c++ - 带有 2d 向量的 C++ 中的分段错误(核心转储)
- sql-server - 尝试访问 Docker 上的 SQL Server 时,在建立与 SQL Server 的连接时发生网络相关或特定于实例的错误
- reactjs - 条形图中的标签?
- hadoop - 计算一系列日期之间的日期字符串
- java - jooq 使用 mapInto 从多个表中选择
- angular - 无法使用角材料中的 mat-tab-nav-bar 覆盖 mat-ink-bar 颜色
- python - 导入库的问题
- r - 构建函数以将自然中断jenks应用于我的df列时出错
- javascript - 通过 URL 参数设置 cookie 并在整个网站上保持其值