apache-spark - 自定义 TF-IDF 的 Apache Spark 实现

一方面，我想使用 spark 功能来计算文档集合的 TF-IDF，另一方面，TF-IDF 的典型定义（Spark 实现基于此）不适合我的情况。我希望 TF 是所有文档中的词频，但在典型的 TF-IDF 中，它适用于每一对（单词，文档）。IDF 定义与典型定义相同。

我使用 Spark RDD 实现了我的自定义 TF-IDF，但我想知道是否有任何方法可以自定义 Spark TF-IDF 的源，以便我可以使用它的功能，比如散列。

实际上，我需要类似的东西：

public static class newHashingTF implements Something<String>

谢谢

标签： apache-sparktf-idf

实现不同的散列策略非常简单，您可以通过以下简单性看出HashingTF：

这个演讲和它的幻灯片可以提供帮助，网上还有很多其他的。