首页 > 解决方案 > 美丽的汤还是硒?

问题描述

我对编程相当陌生,我需要对以下问题进行技术解释。

首先,虽然我谦虚地了解“美丽汤”和“硒”的方法,但我希望有经验的用户提供答案,这些答案真的很难从网络或文本中提取出来。

我可以通过 selenium 打开页面从网站获取数据,然后通过 Beautiful soup 获取 page.source 进行解析。美汤本身,不给出页面的html,而是提供整个网站的源代码,其中不包含特定页面所需的html,即使链接直接指向该页面!

1)有没有办法在没有硒的情况下获得page_source,但只有Beautiful Soup?

2)我可以在不打开相关页面的情况下使用 selenium 吗?(比如有没有等效于 .get('http..') 的方法,它不会物理打开链接!如果处理 > 300 个链接,我发现这是一场噩梦!!!!!!)

2)还有另一种更有效的pythonic方式吗?

我目前正在使用的代码:

import requests
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium import webdriver
import os
from selenium.webdriver import chrome



driver = webdriver.Chrome(executable_path=r'C:chromedriver.exe')


url= "https.."
driver.get(url) 
driver.implicitly_wait(10)

soup = BeautifulSoup(driver.page_source,"lxml")
print(soup.text) 

谢谢大家。

标签: python-3.xseleniumbeautifulsouppython-requests

解决方案


推荐阅读