python - 将 Scala RDD 映射函数转换为 Pyspark
问题描述
我正在尝试将以下函数从 Scala 转换为 Pyspark::
DF.rdd.map(args => (args(0).toString, args.mkString("|"))).take(5)
为此,我正在制作以下地图功能:
DF.rdd.map(lambda line: ",".join([str(x) for x in line])).take(5)
但是 Scala 代码给了我数组结构,而在 Python 中我得到了一个分隔的结果。
如何将上述scala代码转换为python?
解决方案
您的 scala 代码从 args 返回一个 2 元素列表。
您的 python 代码返回一个逗号连接的字符串
这将返回相同的东西
lambda args: [str(args[0]), "|".join(map(str, args))]
推荐阅读
- django - 可空外键字段 Django Rest 框架的反序列化问题
- xamarin.forms - Xamarin 表单自定义 GridView Tap 和 Long Tap 不能一起工作
- r - 如何将我的图像数据转换为类似于时尚 MNIST 数据的格式
- java - 如何在我的马兵去过的每个位置放置一个数字(在二维“板”数组中)
- python - ImportError:/lib/arm-linux-gnueabihf/libc.so.6:未找到版本“GLIBC_2.28”
- python - 如何根据大小更改列值
- javascript - 如何使用 lodash 在嵌套的对象数组中查找对象?
- asp.net-core - 如何手动接受和拒绝(Ack and Nack)消息?
- python - 如何在 django 中将字典新条目呈现为表的新行?
- android - 在从 API 检索和更新数据时保留可扩展 recyclerview 的布局