scala - 如何在 Spark Scala 中的 Schema RDD [从案例类中创建] 中查找重复项以及相应的重复计数?
问题描述
我有一个从案例类创建的模式 RDD。考虑到 Spark Scala 中的所有列和重复计数,我需要找到重复的条目
解决方案
因为,它是一个案例类,它会有自己的哈希函数。您可以使用它来对元素进行分组。
val yourRdd: RDD[YourCaseClass] = ???
val duplicateCountRdd: RDD[(Int, Iterable[YourCaseClass])] =
yourRdd
.groupBy(_.hashCode)
.map({ case (hash, duplicates) => (duplicates.size, duplicates) })
推荐阅读
- haskell - 打印一个用 Aeson 解析的对象什么都不做
- android - 滚动视图在底部留下空格
- c# - 通过 JSON 文件配置 ServiceCollection
- module - 为什么`type alias`是在另一个模块中以相同方式定义的类型?
- ruby - 具有复杂结构的高效多项选择
- python - Python Web Scraping:美丽的汤
- android - 从 MutableLiveData 更改数据时无法触发 onChange
- c# - 如何让用户填写数组?
- websocket - 如何从 Cassandra DB 创建流?
- javascript - 计算 Javascript 中的标点符号然后传递给 HTML