regex - 如何在 Pandas 中组合 Regex Findall 的输出
问题描述
我正在 jupyter 笔记本中使用 pandas 探索正则表达式。我的目标是使用一组正则表达式模式从地址行中提取 housenumberadditions。
我正在这篇文章的基础上构建:https ://gist.github.com/christiaanwesterbeek/c574beaf73adcfd74997 ,我将它用于来自.csv的输入:
Afleveradres
Dorpstraat 2
Dorpstr. 2
Dorpstraat 2
Laan 1933 2
18 Septemberplein 12
Kerkstraat 42-f3
Kerk straat 2b
42nd street, 1337a
1e Constantijn Huigensstraat 9b
Maas-Waalweg 15
De Dompelaar 1 B
Kümmersbrucker Straße 2
Friedrichstädter Straße 42-46
Höhenstraße 5A
Saturnusstraat 60-75
Saturnusstraat 60 - 75
Plein \'40-\'45 10
Plein 1945 1
Steenkade t/o 56
Steenkade a/b Twee Gezusters
1, rue de l\'eglise
Herestraat 49 BOX1043
Maas-Waalweg 15 15
我的目标是提取街道名称、门牌号码和门牌号码。
到目前为止,我基本上使用:
# get data
file_base_name = 'examples'
dfa = pd.read_csv(''+file_base_name+'.csv', sep=';')
#get number
dfa['num'] = dfa['Afleveradres'].str.extract(r"([,\s]+\d+)\s*")
dfa['num'] = dfa['num'].str.strip()
# split leftover values into street & addition
dfa['tmp']=dfa.Afleveradres.str.replace(r"([,\s]+\d+)\s*", ';')
# new data frame with split value columns
new = dfa["tmp"].str.split(";", n = 1, expand = True)
# making separate first name column from new data frame
dfa["str"]= new[0]
# making separate last name column from new data frame
dfa["add"]= new[1]
dfa.drop(['tmp'], axis=1, inplace=True)
这导致: 列出街道名称、数字和加法:
;Afleveradres;str;add;num
0;Dorpstraat 2;Dorpstraat;;2
1;Dorpstr. 2;Dorpstr.;;2
2;Dorpstraat 2;Dorpstraat;;2
3;Laan 1933 2;Laan;2;1933
4;18 Septemberplein 12;18 Septemberplein;;12
5;Kerkstraat 42-f3;Kerkstraat;-f3;42
6;Kerk straat 2b;Kerk straat;b;2
7;42nd street, 1337a;42nd street;a;, 1337
8;1e Constantijn Huigensstraat 9b;1e Constantijn Huigensstraat;b;9
9;Maas-Waalweg 15;Maas-Waalweg;;15
10;De Dompelaar 1 B;De Dompelaar;B;1
到目前为止一切顺利,暂时。接下来,我想更正门牌号码范围,例如“42-46”和“60-65”。
Are.findall
返回期望值:
import re
def rem(str):
pattern = r'[,@\'?\.$%_]'
if re.match(pattern, str):
tmp = 'Y'
else:
tmp = 'N'
return tmp
def extract_numrange(row):
r = ''+row['Afleveradres']
num_range1 = re.findall(r'([,\s]+\d+\-+\d+)\s*|([,\s]+\d+\s+\-+\s+\d+)\s*',r)
return num_range1
# return rem(num_range1)
dfa['excep'] = dfa.apply(extract_numrange, axis=1)
dfa
15 Friedrichstädter Straße 42-46 Friedrichstädter Straße -46 42 [( 42-46, )]
16 Höhenstraße 5A Höhenstraße A 5 []
17 Saturnusstraat 60-75 Saturnusstraat -75 60 [( 60-75, )]
18 Saturnusstraat 60 - 75 Saturnusstraat -; 60 [(, 60 - 75)]
但是如何将这个输出从 [( 42-46, )] 和 [(, 60 - 75)] 清理成新列中的 42-46 和 60 - 75 之类的东西?
或者我的问题有更好的方法吗?
解决方案
问题来自于有两个捕获组的事实。您需要重新修改模式以仅使用单个捕获组,或者完全摆脱该组。
你的模式就是这种(Group1)\s*|(Group2)\s*
类型。如您所见,您所需要做的就是将这些部分重新组合成(Group1|Group2)\s*
.
所以,最快的解决方法是
([,\s]+\d+\-+\d+|[,\s]+\d+\s+\-+\s+\d+)\s*
请参阅正则表达式演示。
但是,我认为您不需要两端的空格。然后,将那些您不想捕获的模式移出分组:
[,\s]+(\d+\-+\d+|\d+\s+\-+\s+\d+)\s*
^^^^^^
请参阅此正则表达式演示。
可能,您可以将其进一步减少到
[,\s](\d+(?:-+|\s+-+\s+)\d+)
请参阅此正则表达式演示,这(?:-+|\s+-+\s+)
是一个非捕获组,不会导致额外的元组项。
推荐阅读
- google-sheets - 如何根据谷歌表格中的条件将数据从输入范围传输到输出范围?
- javascript - 执行功能后 D3 force 似乎有问题
- apache-nifi - Nifi-Registry - 与 git 集成
- vba - 如何在不映射目标文件夹的情况下在服务器上打开 pdf 文件?
- blockchain - 从出现在 BTC 和 BCH 区块链上的 addr 中检索 BCH
- javascript - Firebase 云函数总是返回 null
- sql - 用于 In Query 的 Athena/Presto 拆分字符串
- visual-studio - 从命令行构建部署项目(.msi 安装程序)。Visual Studio 社区 2019
- vue.js - Vue:在渲染的命名槽内访问 Vue 组件方法
- r - 为什么只是上下移动我的标签,而只是左右移动?这不是倒退吗?