dataframe - groupByKey 可以用来优化和减少计算工作吗
问题描述
我有这样的数据框
empId|firstName|lastName|DOB|effStartDate|effEndDate|........
121|拉胡尔|贾斯瓦尔|27-10-1194|03-05-2019|03-05-2020|.....
147|开发|库马尔|12-03-1995|04-08-2019|03-05-2020|.....
121|拉胡尔|贾斯瓦尔|27-10-1194|03-05-2019|03-05-2020|.....
... ...继续
现在,我正在从 DF 中提取价值,如下所示:
implicit val encoder = kryo[EmployeeJobDataFields]
val sortedDF = df.orderBy(asc(EMP_ID_COLUMN), asc(EFF_START_DATE_COLUMN)).na.fill(EMPTY_STRING)
val recordList: List[EmployeeJobDataFields] = sortedDF
.map(row => {
EmployeeJobDataFields(row.getString(0), row.getString(1), row.getString(2), row.getString(3),
row.getString(4), row.getString(5), row.getString(6), row.getString(7), row.getString(8), row.getString(9)
})(encoder)
.collectAsList
在这里,empId 将为某些用户重复
这是最好的方法还是我们可以有任何其他方法来增强代码?我不确定 groupByKey() 是否适合这里并减少任何类型的计算工作
请高手指导一下
解决方案
推荐阅读
- java - JScrollPane 内 JSplitPane 的最小宽度
- javascript - Next.js 使用 MoneyButton 处理 0Auth 授权
- java - 为 PDF 文档中的嵌入文件创建“下载”锚点
- java - 使用带参数的构造函数填充对象列表
- cassandra - 将浮点数列表与非规范化存储到多行中是否有区别?
- java - 当堆外内存已满时,Chronicle 映射如何表现?
- python - 将带有“%”符号的数值保存为Excel中的浮点数 - Python
- python - 如何将所有未屏蔽的值设置为某个值?
- mozrepl - 在 Firefox 42 中运行 MozRepl 插件
- ocaml - 有没有办法将 Ocaml 可执行文件反编译为源代码?