apache-spark - 自定义 TF-IDF 的 Apache Spark 实现
问题描述
一方面,我想使用 spark 功能来计算文档集合的 TF-IDF,另一方面,TF-IDF 的典型定义(Spark 实现基于此)不适合我的情况。我希望 TF 是所有文档中的词频,但在典型的 TF-IDF 中,它适用于每一对(单词,文档)。IDF 定义与典型定义相同。
我使用 Spark RDD 实现了我的自定义 TF-IDF,但我想知道是否有任何方法可以自定义 Spark TF-IDF 的源,以便我可以使用它的功能,比如散列。
实际上,我需要类似的东西:
public static class newHashingTF implements Something<String>
谢谢
解决方案
推荐阅读
- javascript - UseEffect - React Hook useEffect 缺少依赖项:
- node.js - Strapi 和 React 的单独端口不能在同一个域下工作
- average - 计算栅格图层的平均值
- excel - 寻找在体内起作用的excel公式
- sql - Oracle SQL - ORA-00936:缺少表达式
- excel - VBA IF 语句 - 遍历列 A 并在所有行仅以字母 E 、 S 开头时执行
- javascript - 如何忽略空格、大小写和标点符号
- javascript - ReferenceError:找不到变量:firebase 全局代码
- ios - 从嵌入在 pod 中的框架访问 .bundle 内容时,“无法在包中加载 NIB”
- azure - 没有图像参考的 VM 的解决方法