apache-spark - 在 PySpark RDD 中交换键值
问题描述
我正在使用 PySpark RDD。当我使用map函数生成(key-value)时,这两者的位置不正确,需要交换。
这是我的地图功能:
rdd8=rdd5.map(lambda word : (word,1) )
rdd8.collect()
我收到了这个结果:
('کاغذ', 1),
('داره', 1),
('و', 1),
('هر', 1),
('خطی', 1),
('را', 1),
('بکشید', 1),
('ثبت', 1),
('می', 1),
('کنه', 1),
('طراحی', 1),
('زیبا', 1),
('رنگ', 1),
('زرد', 1),
('زیبا', 1),
('صفر', 1),
('تاصد', 1),
('عالی', 1),
解决方案
您可以映射 rdd8 并交换元组元素:
new_rdd = rdd8.map(lambda x: (x[1], x[0]))
推荐阅读
- javascript - ajax请求请求的Cors标头错误
- react-native - 在条带中调用confirmPayment函数时出现“您必须提供卡详细信息、令牌或paymentMethodId”错误
- python - 如何围绕pygame屏幕中的一个点平移和旋转坐标轴?
- c# - 使用 RestSharp 创建特定的请求类型
- javascript - 如何测试应该在 window.onload 中执行的代码?
- firebase - 用两个flutterapp链接fire store数据库
- node.js - 如何在 package.json 中使用相同节点依赖项的 2 个不同版本?
- apache-kafka - Oracle 数据库中 CLOB 字段的 JDBCSINK 连接器失败
- c# - 如何更改 EF Core Fluent API 中的外键名称?
- puppeteer - Puppeteer 如何通过延迟加载从网站获取所有图像响应