首页 > 解决方案 > 用于 HTML 的 re.findall 过滤器

问题描述

我正在尝试自学 Python,从一个简单的网络爬虫开始。基本目标是获取以“Https://”开头并以“.html”结尾的 URL,第一部分很容易,但我无法毫无问题地对 .html 部分进行“过滤”。我要么得到错误,要么没有结果:

import urllib, urllib.request, re

   with urllib.request.urlopen("https://www.TEST") as website:
       html = website.read().decode("utf-8")

   links = re.findall('"((https://).*?)"', html)

   print(links)

标签: pythonweb-crawlerurllibre

解决方案


推荐阅读