首页 > 解决方案 > 如何使用 requests-html 获取网页上的所有链接

问题描述

我是网络解析的新手,想制作一个程序来获取网页上的所有内部和外部链接,但我根本不知道如何做到这一点,我所写的就是这个

from requests_html import *

sss = HTMLSession()
k = sss.get('https://en.wikipedia.org/wiki')
hhh = HTML(html=k.html.html)
print(hhh.find('href'))

我不知道为什么当href标签无处不在时它会打印[]提前谢谢你

标签: pythonpython-3.xpython-requests

解决方案


您可以使用下面的代码获取所有内部和外部链接。该代码将所有相对链接转换为绝对链接。

from requests_html import HTMLSession

base_url = 'https://en.wikipedia.org'
sss = HTMLSession()
k = sss.get('https://en.wikipedia.org/wiki')
links = k.html.absolute_links
print(links)

推荐阅读