python-3.x - 美丽的汤还是硒?
问题描述
我对编程相当陌生,我需要对以下问题进行技术解释。
首先,虽然我谦虚地了解“美丽汤”和“硒”的方法,但我希望有经验的用户提供答案,这些答案真的很难从网络或文本中提取出来。
我可以通过 selenium 打开页面从网站获取数据,然后通过 Beautiful soup 获取 page.source 进行解析。美汤本身,不给出页面的html,而是提供整个网站的源代码,其中不包含特定页面所需的html,即使链接直接指向该页面!
1)有没有办法在没有硒的情况下获得page_source,但只有Beautiful Soup?
2)我可以在不打开相关页面的情况下使用 selenium 吗?(比如有没有等效于 .get('http..') 的方法,它不会物理打开链接!如果处理 > 300 个链接,我发现这是一场噩梦!!!!!!)
2)还有另一种更有效的pythonic方式吗?
我目前正在使用的代码:
import requests
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium import webdriver
import os
from selenium.webdriver import chrome
driver = webdriver.Chrome(executable_path=r'C:chromedriver.exe')
url= "https.."
driver.get(url)
driver.implicitly_wait(10)
soup = BeautifulSoup(driver.page_source,"lxml")
print(soup.text)
谢谢大家。
解决方案
推荐阅读
- string - 如何检查字符串飞镖中是否存在任何日期
- c - 从父进程读取子进程的写入
- html - 模态中的引导轮播显示不止一张幻灯片
- vue.js - Display a component within an i18n text in Vue.js
- python - 查找多项式函数 Python Sympy 的根
- magento - Magento 2.3 上的登录模块
- python - Matplotlib 动画未按预期绘制线条
- azure-active-directory - 使用服务主体的 Power BI REST API - 错误 401 未经授权
- multithreading - 如何在@threads 中“锁定”变量?
- pandas - 熊猫检查数据框中的每个值并在条件满足时替换它