python - 将 HTML-source 作为 HTML 对象获取,并能够使用 DOM 操作在其中工作
问题描述
我有一个页面,比如说,https://jq.profinance.ru/html/htmlquotes/site2.jsp
每秒更新一次。我的目标是parse
使用Selenium
.
driver = webdriver.Chrome()
driver.get(url)
mylist = []
my_tables = driver.find_elements_by_tag_name('table') #operation1
for tr in my_tables.find_elements_by_tag_name('tr'): #operation2
mylist.append(tr)
问题是 Python 将对对象的引用分配driver.find_elements_by_tag_name('table')
给我的变量my_tables
而不是值。因此,我没有得到正确的数据,因为操作 1 和 2 之间存在一些滞后。
如何复制网页 HTML 结构,然后使用Selenium
命令浏览我的文档结构?
我试过pickle
, get_aatribute("InnerHTML")
,.page_source
但它们在复制字符串对象时无法正常工作。
解决方案
我认为你不能完全用 Selenium 来做你想做的事情。Selenium“驱动”正在运行的网络浏览器,如果该浏览器中的 Javascript 每秒左右更新页面内容,您将遇到这些时间问题。
您可以做的是使用 Selenium 驱动浏览器以字符串形式获取页面 HTML 的快照(正如您在上一段中描述的那样)。
然后,您可以使用Beautiful Soup之类的库来解析 HTML 字符串并提取您需要的数据。
推荐阅读
- sharepoint - Sharepoint C#如何通过图片库的标题检索所有图片及其名称
- android - 如何使时间栏在 Android 中以 Minimal 样式工作?
- windows - Windows 上的 Clang:如何禁用默认的 MSVC 兼容性?
- javascript - 如何使用 React 中另一个组件的按钮功能调用组件中的状态更改?
- flutter - 在 Flutter 中,获取 URL 但无法在 VideoPlayer 上显示视频并出现错误
- plantuml - PlantUML:如何使动作指向动作和项目
- ruby-on-rails - Rails Pg_Search 在没有更改代码的情况下停止工作
- pca - 尝试使用 R 中的 ggbiplot 删除 PCA 中的网格线和背景
- mysql - bash: X: 参数列表太长
- sql-server - SQL 到 SAS ODBC 连接 - NVARCHAR(max) 截断但出现错误:选项 dbtype 不是有效的输出数据集选项