python - 用于 HTML 的 re.findall 过滤器
问题描述
我正在尝试自学 Python,从一个简单的网络爬虫开始。基本目标是获取以“Https://”开头并以“.html”结尾的 URL,第一部分很容易,但我无法毫无问题地对 .html 部分进行“过滤”。我要么得到错误,要么没有结果:
import urllib, urllib.request, re
with urllib.request.urlopen("https://www.TEST") as website:
html = website.read().decode("utf-8")
links = re.findall('"((https://).*?)"', html)
print(links)
解决方案
推荐阅读
- javascript - 如何切换按钮?
- c# - 执行Restsharp后如何填充嵌套的简单数组类型json?
- debugging - 如何在 Dymola 中查看 Modelica 模型的非线性方程?
- reactjs - 不应显示相同 url 的导航提示对话框
- python - Seaborn KDEPlot - 数据变化不够?
- python-3.x - Python:递归方法是类方法时返回不同的结果
- angular - Angular 使用 Apollo:单元测试:错误:尚未定义客户端
- deep-learning - 如何使用语言建模方法生成数据序列?
- ruby - 如何使用 ruby 脚本将单个 json 字符串插入到 elasticsearch
- python - 使用python评估excel单元格的性能