python - 如何使用 requests-html 获取网页上的所有链接
问题描述
我是网络解析的新手,想制作一个程序来获取网页上的所有内部和外部链接,但我根本不知道如何做到这一点,我所写的就是这个
from requests_html import *
sss = HTMLSession()
k = sss.get('https://en.wikipedia.org/wiki')
hhh = HTML(html=k.html.html)
print(hhh.find('href'))
我不知道为什么当href标签无处不在时它会打印[]提前谢谢你
解决方案
您可以使用下面的代码获取所有内部和外部链接。该代码将所有相对链接转换为绝对链接。
from requests_html import HTMLSession
base_url = 'https://en.wikipedia.org'
sss = HTMLSession()
k = sss.get('https://en.wikipedia.org/wiki')
links = k.html.absolute_links
print(links)
推荐阅读
- python - 如何在python中调用函数?
- c# - 如何从列表中排除项目
- python - 在 PyCharm 中标记目录作为源的 python 等价物是什么?
- javascript - 根据选中的复选框数生成动态 li 元素
- java - Java+docker RSS 调优glibc bug
- django - 在带有 SQL Lite 的 Django 中使用 bootstrap.min.css 时,在 Python 中出现一系列错误后,连接中止并出现 WinError 10053
- r - 将 n 个元素的列表拆分为一个包含 n 个向量的数据帧
- dataframe - 将带有 String 的 Julia DataFrame 列转换为带有 Int 和缺失值的列
- json - GetStream.ClientError.jsonDecode 在获取 getStream 中的活动时出错
- sql-server - 识别两个表之间的重复项并删除创建时间较早的表