首页 > 解决方案 > 提取一行中多个url的最后一个元素

问题描述

我在以下模板中有非结构化数据:

'<http://www.wikidata.org/entity/Q1> <http://www.wikidata.org/entity/P31c> <http://www.wikidata.org/entity/Q1454986> .',
'<http://www.wikidata.org/entity/Q1> <http://www.wikidata.org/entity/P227c> "4079154-3" .',
'<http://www.wikidata.org/entity/Q1> <http://www.wikidata.org/entity/P373c> "Universe" .'

我想提取每个 url 的最后一个元素,结果应该是这样的:

'Q1 P31c Q1454986', 
'Q1 P227c 4079154-3', 
'Q1 P373c Universe'

我已经尝试了一些例子,包括thisthis。但是,大多数情况下,他们一行中只有一个链接。

我仍在学习正则表达式,但无法解决上述问题。

标签: pythonregexurl

解决方案


您想要 2 组,一组介于/和之间>,一组介于 和 之间"

/([^/>]+)>|\"([^\"]+)\"

推荐阅读