apache-spark - 如何在 pyspark 数据框中应用多个正则表达式模式
问题描述
我正在尝试实现一个 udf,它采用输入数据框和列名,输入列中的每条记录都必须解析所有正则表达式模式。我是 pyspark 的新手。
import re
from pyspark.sql.functions import udf
def group_nm_transfrom(inDF,column_name):
column_name = re.findall(r's/ AND / /', column_name)
column_name = re.findall(r's/ ADVANCED | ADVANCE / ADV /', olumn_name)
column_name = re.findall(r's/ ASC | ASSOCI | ASSC | ASSOCIAT | ASSOCIA | ASSO | ASSOCS | AS | ASSOCIATES / ASSOC /', column_name)
return matches[0] if matches else None
解决方案
推荐阅读
- typescript - 顶级变量和静态变量的区别
- html - 一旦超过最小宽度,就可以使用默认的最小宽度设置
- ruby-on-rails - 如何修复此错误 NameError: uninitialized constant AWS
- mysql - 将分组限制为每个结果的前 x 行
- java - java Chronicle Map 的哪些功能用于将数据写入内存映射文件
- node.js - 无法访问“then”之外的数据
- javascript - 无法读取 null 的属性“hasPermission”
- sql - SQL根据条件自定义返回值
- docker - docker是如何缓存图层的?
- python - 初学者 Python/Pandas 数据分析 - 计算新系列 - 操作顺序?