首页 > 解决方案 > 如何从我当前在机器上的浏览器中打开的网页中获取文本/html?

问题描述

我想做这样的事情:

from lxml import html
import requests

page = requests.get('https://a-website.com/')

但是,我不想传递定义的硬编码 url,而是想获取我当前在我的网络浏览器中打开的页面。即page = requests.get(whateverisopeninmychrome)。对于它的价值,它是我专门寻找的 div 的文本内容。

有什么办法可以做到这一点,甚至有可能吗?我找不到任何其他有关从您机器上当前打开的浏览器中提取 html/内容的信息。

标签: pythonhtmlpython-requests

解决方案


不,你不能喜欢这样。一种方法是在您的网站打开的情况下在Google ChromeFirefox上打开开发者控制台并使用如下 javascript 语法:

对于按className搜索,它将返回一个列表,您将必须获取一个元素:

var html = document.getElementsByClassName('htmlClassHere')[0].innerText

对于按id搜索,它将返回元素,您可以像这样使用它:

var html = document.getElementsById('htmlIdHere').innerText

推荐阅读