首页 > 解决方案 > 使用正则表达式从文本中提取图像 url

问题描述

我正在尝试从包含特定单词的 html 文本中提取所有图像 url。我尝试了以下正则表达式,但它在一些没有空格的字符串上失败。

正则表达式

(http\S+logo\S+[.]png|http\S+logo\S+[.]jpg|http\S+logo\S+[.]svg|http\S+logo\S+[.]jpeg)

文本

https://a0.muscache.com/airbnb/static/logos/trips-og-1280x630-9de9c338cc3fd9b5663fb80be0cbe8c2.jpg
https://a0.muscache.com/airbnb/static/logos/trips-og-1280x630-9de9c338cc3fd9b5663fb80be0cbe8c2.png
https://a0.muscache.com/airbnb/static/logos/trips-og-1280x630-9de9c338cc3fd9b5663fb80be0cbe8c2.svg
https://media.glassdoor.com/sqls/575263/uber-squarelogo-1537216184790.png","logo2x":"https://media.glassdoor.com/sqlm/575263/uber-squarelogo-1537216184790.png
"https://media.glassdoor.com/sqls/575263/uber-squarelogo-1537216184790.png","logo2x":"https://media.glassdoor.com/sqlm/575263/uber-squarelogo-1537216184790.png"

任何人都可以说明如何从上面提取图像网址吗?

标签: pythonregex

解决方案


如果您想提取整个 URL,也许只需:

https:.*?\.(?:png|jpg|svg)

推荐阅读