javascript - 无法通过在 Python 中使用 execute_script 进行网页抓取来获取所有 html 代码
问题描述
我正在尝试使用 Python 获取用于网络抓取的 html 代码。我选择了房地产中介的网站。
在执行更改页面的按钮的 onclick 事件之前,我需要获取此元素本身。然而,让我们进入下一页或上一页的按钮(用符号“>”和“<”设计)不会显示在代码中。
你能否就这个问题提出一些建议。
这是我的代码
from selenium import webdriver
from bs4 import BeautifulSoup as bs
import requests
browser = webdriver.Chrome()
url = "https://www.centris.ca/en/properties~for-sale?view=Thumbnail"
browser.get(url)
innerHTML = browser.execute_script("return document.body.innerHTML")
print(innerHTML)
解决方案
只需使用以下代码行即可单击链接而不会看到其内容:
browser.find_element_by_xpath("//li[@class='next']/a").click()
推荐阅读
- python - pymc3 模型在默认初始化的采样器中失败,但适用于“地图”
- c++ - 错误:将 x 作为 x 的“this”参数传递会丢弃限定符
- reactjs - 使用 Redux 和 Persistor 在 React 中构建持久性
- swift - 如何在 Xcode 之外运行 Xcode 应用程序?MacOS 独立应用程序与 Xcode Simulator 中的应用程序运行方式不同
- mysql - 使用 Node 和 MySQL,如何从表 A 中为特定用户 ID 选择行(表 B)
- curl - 使用旧版本 curl 时,curl 到 localhost 端口连接被拒绝
- c++ - 在 VS 代码中使用 gcc 无法看到 std::vector 的元素
- python - 什么时候应该使用 python flask 条件和 jinja2 html 模板条件?
- php - 日期字段不想显示
- javascript - 无法循环遍历我构建的 URL 数组以转到子页面以使用 puppeteer 进行抓取