首页 > 解决方案 > 将 HTML 数据从浏览器导出到 html 文件

问题描述

我有一个 html DOM 数据不断变化的网站。但我想在一定的时间间隔内导出该 html 内容。因为我必须解析那个 html 数据。网站不允许从 api 获取数据。所以我需要可以作为浏览器插件或任何可以在浏览器控制台上运行的 javascript 的解决方案。

标签: javascriptselenium-webdrivergoogle-chrome-extensionpluginsfirefox-addon-webextensions

解决方案


德文德拉·米什拉

mnit.devd@gmail.com

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
import time 

# TIME AFTER WHICH YOU WANTED TO TAKE SNAPSHOT
TIME_AFTER_TAKE_SNAPSHOT = 5
# Specifying incognito mode as you launch your browser[OPTIONAL]
option = webdriver.ChromeOptions()

# Create new Instance of Chrome in incognito mode
browser = webdriver.Chrome(executable_path='/var/lib/chromedriver', chrome_options=option)

# Go to desired website
browser.get("https://google.com/")


for i in range(1000):
    # complate page your want to take snapshot
    print browser.page_source

    # all text content of tag index print below.
    val = browser.find_elements_by_class_name("index{}".format(i))  
    print val[0].text
    time.sleep(TIME_AFTER_TAKE_SNAPSHOT)

推荐阅读