apache-spark - 将 PySpark 数组列乘以标量
问题描述
我正在尝试将数组类型的列乘以标量。此标量也是来自同一 PySpark 数据帧的值。
例如,我有这个数据框:
df = sc.parallelize([([1, 2],3)]).toDF(["l","factor"])
+------+------+
| l|factor|
+------+------+
|[1, 2]| 3|
+------+------+
我想要实现的是:
+------+------+
| l|factor|
+------+------+
|[3, 6]| 3|
+------+------+
这是我尝试过的:
df.withColumn("l", lit("factor") * df.l)
它返回类型不匹配错误。如何将数组类型的列乘以数字?
解决方案
从spark-2.4
使用transform
spark.sql(""" select l, factor, transform(l,x -> x * factor) as result from tmp """).show(10,False)
#+------+------+------+
#|l |factor|result|
#+------+------+------+
#|[1, 2]|3 |[3, 6]|
#+------+------+------+
使用dataframe API:
df.withColumn("res",expr("""transform(l,x -> x*factor)""")).show()
#+------+------+------+
#| l|factor| res|
#+------+------+------+
#|[1, 2]| 3|[3, 6]|
#+------+------+------+
推荐阅读
- asp.net-mvc - MVC 中的 .NET Highcharts
- swift - 解析日期需要大量 RAM
- java - 如何将 SQL 结果集输出限制为 1 个结果而不是每个查询的结果?
- python - 为什么设置一个变量等于另一个变量会改变这段代码中的任何内容?
- docker - 使用 Docker 和 Hyper-V 重定向端口
- javascript - 使用 Jquery 具有具有特定 CSS 属性的元素的目标元素
- c++ - C++ - 如果两个库使用相同的源代码进行构建会发生什么
- jquery - 带有控件的 jQuery 幻灯片显示相反的动作
- c++ - 在 C++ 中多次使用逻辑运算符“&&”时出现代码错误
- php - $_FILES 中的某些键为空