首页 > 解决方案 > 自定义 TF-IDF 的 Apache Spark 实现

问题描述

一方面,我想使用 spark 功能来计算文档集合的 TF-IDF,另一方面,TF-IDF 的典型定义(Spark 实现基于此)不适合我的情况。我希望 TF 是所有文档中的词频,但在典型的 TF-IDF 中,它适用于每一对(单词,文档)。IDF 定义与典型定义相同。

我使用 Spark RDD 实现了我的自定义 TF-IDF,但我想知道是否有任何方法可以自定义 Spark TF-IDF 的源,以便我可以使用它的功能,比如散列。

实际上,我需要类似的东西:

public static class newHashingTF implements Something<String>

谢谢

标签: apache-sparktf-idf

解决方案


实现不同的散列策略非常简单,您可以通过以下简单性看出HashingTF

这个演讲和它的幻灯片可以提供帮助,网上还有很多其他的。


推荐阅读