scala - 从 scala Spark 中的 RDD[type] 获取不同的行
问题描述
假设我有一个像这样的 RDD[employee] 格式的 RDD 和如下示例数据:-
FName,LName,Department,Salary
dubert,tomasz ,paramedic i/c,91080.00,
edwards,tim p,lieutenant,114846.00,
edwards,tim p,lieutenant,234846.00,
edwards,tim p,lieutenant,354846.00,
elkins,eric j,police,104628.00,
estrada,luis f,police officer,96060.00,
ewing,marie a,clerk,53076.00,
ewing,marie a,clerk,13076.00,
ewing,marie a,clerk,63076.00,
finn,sean p,firefighter,87006.00,
fitch,jordan m,law clerk,14.51
fitch,jordan m,law clerk,14.51
预期输出:-
dubert,tomasz ,paramedic i/c,91080.00,
edwards,tim p,lieutenant,354846.00,
elkins,eric j,police,104628.00,
estrada,luis f,police officer,96060.00,
ewing,marie a,clerk,63076.00,
finn,sean p,firefighter,87006.00,
fitch,jordan m,law clerk,14.51
我想要每个基于不同 Fname 的单行
解决方案
我想你想做这样的事情:
df
.groupBy('Fname)
.agg(
first('LName),
first('Department),
first('Salary)
)
推荐阅读
- spring - 在 Spring Boot 的 @Query 删除/更新/插入方法中使用 @Transactional 和 @Modifying 是强制性的吗?
- php - 在 PHP 7.2 和 Prestashop 1.7 上导出 XML 多个值的问题
- android - 如何在 Flutter 的 IconData 中插入变量?
- numpy - 多处理池卡住
- oauth-2.0 - Zoho CRM API 到 Power BI 连接器
- java - 从我的应用程序向 Google 助理发送语音或文本命令(Hey Google)
- excel - 读取列表框中所选行的第一列的值
- python - 仅从多个文件夹的 s3 存储桶中读取特定的 json 文件
- python - 如何将镶木地板文件上传到 Azure ADLS 2 Blob
- batch-file - 批处理文件中的空间