python - 用 bs4 抓取 CSS 背景图像 url?
问题描述
我目前正在尝试从网站上抓取某些 URL。但是,有时这些 URL 以 CSS 背景或背景图像 URL 的形式给出。但是,我尝试了,但我无法访问这些 URL,而且很遗憾,我无法提供“这是我目前能做的”代码片段。
我正在使用 bs4 和请求。脚本将访问的每个网站都有不同的 CSS 文件,因此遵循不同的命名约定。因此,我没有 xyz.css 文件。该脚本将找到相关的并抓取 URL。我真的很感激一些提示或帮助。
cssList=soup.find_all('link',{'href':re.compile('.css')})
for css in cssList:
css = css['href']
css_response = requests.get(css,headers=custom_headers, verify=True,timeout=2)
soup = tarhana(css_response.content, features='lxml')
bgimg = soup.find_all('background-image',url=re.compile('svg|logo'))
for bg in bgimg:
//
所以它应该去获取所有的 css 文件,查看每个文件的 background-image:url(),如果它包含一些关键字,它应该将它们作为一个列表返回
解决方案
推荐阅读
- google-cloud-platform - 无法从 GCP Marketplace 部署 - 缺少有效的默认服务帐号
- c# - datagridview中的两个日期数据差异
- gitahead - 如何在 GitAhead 中暂存单行
- python - 卡在使用 keras.models 的 load_models 加载 facenet-keras 模型
- python - Python 3 - 如何将字符串中的每个字符拆分成一个列表,同时保持十进制数字不变?
- istio - 为 Istio ingress-gateway Loadbalancer 服务分配静态公共 IP
- node.js - 在查询结果中解析服务器未定义的列值
- r - 我怎样才能画出平均值?
- ios - Fyber 奖励视频和优惠墙 iOS
- google-cloud-platform - 解释 Stackdriver Metrics 的意思是“每 60 秒采样一次。采样后,最长 240 秒内数据不可见”