首页 > 解决方案 > 用 bs4 抓取 CSS 背景图像 url?

问题描述

我目前正在尝试从网站上抓取某些 URL。但是,有时这些 URL 以 CSS 背景或背景图像 URL 的形式给出。但是,我尝试了,但我无法访问这些 URL,而且很遗憾,我无法提供“这是我目前能做的”代码片段。

我正在使用 bs4 和请求。脚本将访问的每个网站都有不同的 CSS 文件,因此遵循不同的命名约定。因此,我没有 xyz.css 文件。该脚本将找到相关的并抓取 URL。我真的很感激一些提示或帮助。

cssList=soup.find_all('link',{'href':re.compile('.css')})
for css in cssList:
    css = css['href']
    css_response = requests.get(css,headers=custom_headers, verify=True,timeout=2)
    soup = tarhana(css_response.content, features='lxml')
    bgimg = soup.find_all('background-image',url=re.compile('svg|logo'))
    for bg in bgimg:
       //                

所以它应该去获取所有的 css 文件,查看每个文件的 background-image:url(),如果它包含一些关键字,它应该将它们作为一个列表返回

标签: pythoncssbeautifulsouppython-requests

解决方案


推荐阅读