python - 在pyspark中创建rdd的rdd
问题描述
是否可以在 pyspark 中创建 rdd 的 rdd?我试过了
rdd1=sc.parallelize([1,2,3])
rdd2=sc.parallelize([4,5,6])
rdd3=sc.parallelize([rdd1,rdd2])
并得到错误
解决方案
该UNION
方法可用于执行此操作
rdd1 = sc.parallelize([1, 2, 3])
rdd2 = sc.parallelize([4, 5, 6])
rdd3 = sc.parallelize([7, 8, 9])
rdd = sc.union([rdd1, rdd2, rdd3])
rdd.collect()
## [1, 2, 3, 4, 5, 6, 7, 8, 9]
作为旁注,现在建议使用DataFrame
或Dataset
API。
推荐阅读
- javascript - 如何在Javascript中反转嵌套对象
- laravel - Laravel,Vue fetch什么都不返回,但控制台中有数据
- java - 在 Eclipse 中运行 Java 项目时出现“无法启动选择,并且没有最近启动”提示消息
- sql - 如何获取增量值并将其显示在jsp的输入字段中
- c++ - 如何正确退出使用 Boost Log 的程序?
- c++ - 在 ARM 上初始化 uint32x4_t 时出现错误 C2078?
- javascript - 如何在 html/css/js 中呈现跨媒体栏(PS3 UI)
- shopify - 如何在shopify中获取付款方式
- javascript - 在我的浏览器控制台上调用 ajax 时得到“[Deprecation]”
- python - 当另一列值更改python时创建具有行号的列