首页 > 解决方案 > 如何在 pyspark 数据框中应用多个正则表达式模式

问题描述

我正在尝试实现一个 udf,它采用输入数据框和列名,输入列中的每条记录都必须解析所有正则表达式模式。我是 pyspark 的新手。

import re
from pyspark.sql.functions import udf

def group_nm_transfrom(inDF,column_name):
    column_name = re.findall(r's/ AND /  /', column_name)
    column_name = re.findall(r's/ ADVANCED | ADVANCE / ADV /', olumn_name)
    column_name = re.findall(r's/ ASC | ASSOCI | ASSC | ASSOCIAT | ASSOCIA | ASSO | ASSOCS | AS | ASSOCIATES / ASSOC /', column_name)

    return matches[0] if matches else None

标签: apache-sparkpyspark

解决方案


推荐阅读