apache-spark - Pyspark - 拆分一列并取 n 个元素
问题描述
我想取一列并使用字符拆分字符串。像往常一样,我知道方法 split 会返回一个列表,但是在编码时我发现返回的对象只有方法 getItem 或 getField 以及来自 API 的以下描述:
@since(1.3) def getItem(self, key): """ An expression that gets an item at position ``ordinal`` out of a list, or gets an item by key out of a dict. @since(1.3) def getField(self, name): """ An expression that gets a field by name in a StructField.
显然这不符合我的要求,例如对于“A_B_C_D”列中的文本,我想在两个不同列中的“A_B_C_”和“D”之间拆分。
这是我正在使用的代码
from pyspark.sql.functions import regexp_extract, col, split
df_test=spark.sql("SELECT * FROM db_test.table_test")
#Applying the transformations to the data
split_col=split(df_test['Full_text'],'_')
df_split=df_test.withColumn('Last_Item',split_col.getItem(3))
找一个例子:
from pyspark.sql import Row
from pyspark.sql.functions import regexp_extract, col, split
l = [("Item1_Item2_ItemN"),("FirstItem_SecondItem_LastItem"),("ThisShouldBeInTheFirstColumn_ThisShouldBeInTheLastColumn")]
rdd = sc.parallelize(l)
datax = rdd.map(lambda x: Row(fullString=x))
df = sqlContext.createDataFrame(datax)
split_col=split(df['fullString'],'_')
df=df.withColumn('LastItemOfSplit',split_col.getItem(2))
结果:
fullString LastItemOfSplit
Item1_Item2_ItemN ItemN
FirstItem_SecondItem_LastItem LastItem
ThisShouldBeInTheFirstColumn_ThisShouldBeInTheLastColumn null
我的预期结果总是最后一项
fullString LastItemOfSplit
Item1_Item2_ItemN ItemN
FirstItem_SecondItem_LastItem LastItem
ThisShouldBeInTheFirstColumn_ThisShouldBeInTheLastColumn ThisShouldBeInTheLastColumn
解决方案
您可以使用getItem(size - 1)
从数组中获取最后一项:
示例:
df = spark.createDataFrame([[['A', 'B', 'C', 'D']], [['E', 'F']]], ['split'])
df.show()
+------------+
| split|
+------------+
|[A, B, C, D]|
| [E, F]|
+------------+
import pyspark.sql.functions as F
df.withColumn('lastItem', df.split.getItem(F.size(df.split) - 1)).show()
+------------+--------+
| split|lastItem|
+------------+--------+
|[A, B, C, D]| D|
| [E, F]| F|
+------------+--------+
对于您的情况:
from pyspark.sql.functions import regexp_extract, col, split, size
df_test=spark.sql("SELECT * FROM db_test.table_test")
#Applying the transformations to the data
split_col=split(df_test['Full_text'],'_')
df_split=df_test.withColumn('Last_Item',split_col.getItem(size(split_col) - 1))
推荐阅读
- javascript - 使用 JavaScript 自定义社交分享按钮(无效的 href)
- graphql - 查询之间的 GraphQL 插值
- r - 在 R 中嵌套 ifelse 以跨多个列进行变异
- android - 关闭应用程序时单击 push(oneSignal) 时,Android onNewIntent 不起作用
- java - java.lang.ArrayIndexOutOfBoundsException 与 okhttp 和 adobe analytics http 连接相关的 Android 崩溃
- java - YGuard 混淆后无法从内部类访问私有字段和方法
- collections - 如果可以转换元素,为什么不能使用 .into() 转换容器?
- javascript - 如何使用 App 脚本将 HTML 表单提交到 Google 表单?
- .htaccess - 如何将此异常添加到htaccess?
- python - 了解 TfidfVectorizer 输出