apache-spark - 保持从 rdd 的位置 5 到 15
问题描述
可以说我有这个数据框:
myDataFrame.map(r =>
(
( r.getAs[String]("col1"),
r.getAs[String]("col2"),
r.getAs[String]("col3"),
r.getAs[String]("col4")
),
r.getAs[Int]("col5")))
.groupByKey()
.map(r => (r._1, r._2.sum))
.sortBy(r => r._2)
.map(r => {
Chart(r._1._1, r._1._2, r._1._3, r._1._4)
})
.toDF("col1", "col2", "col3", "col4")
这将返回 1000 个我想保留的数据帧,并且只返回从索引 10 到 100 的数据帧。可能吗 ?
谢谢
解决方案
如果行是唯一的,则带有“except”的“limit”可以工作(不保证):
val df = List(1, 2, 3, 4, 5).toDF("sortable")
df.limit(4).except(df.limit(2))
推荐阅读
- ios - navigationBarItems "类型 [view] 不能符合 'View';只有结构/枚举/类类型可以符合协议"
- react-native - 类型错误:未定义不是 React-Native 对象
- java - JsonMappingException - 字段名称中的意外字符
- python - `dict.copy()` 会迭代吗?我可以在另一个线程中修改字典时使用它吗?
- google-cloud-platform - 为什么 Terraform 不能列出 GCP 帐户中的 SQL 用户?
- node.js - 如何在画布 nodejs 中创建渐变文本?
- javascript - 无法在 react-scroll scrollToTop 中禁用平滑滚动
- c# - C# DataTable csv IndexOutOfRangeException
- python - 如何处理xgboost分类器的过拟合?
- lambda - Stream API:从同一对象中收集基于另一个属性条件的属性列表