首页 > 解决方案 > 如何通过 Selenium 从 JavaScript 中的函数中提取“文本”?

问题描述

更新:Jonas 提供的脚本已经解决了大部分问题。现在,我正在尝试找到一种方法来使用 datepicker 或 sendkey 来设置日期范围,因为每次重新运行代码时它都会自动花费一天。

date_start = driver.find_element(By.Xpath, 'date_from')
date_end = driver.find_element(By.Xpath, 'date_to')
date_start.sendKeys("2021-09-24")
date_end.sendKeys("2021-10-01")

原始问题: 我正在使用 Selenium WebDriver.Chrome 从无法突出显示以从网站复制和粘贴的表中提取数据,当我尝试使用 BeautifulSoup 提取数据时,我发现数据在 JavaScript 的功能下。Java 表的 HTML 代码如下所示:

<script>

  function initTableData() {
    window.initialAnalystData = [{"action_company":"Initiates Coverage On","action_pt":"Announces","analyst":"BTIG","analyst_name":"James Sullivan","currency":"USD","lastTradePrice":24.89},"logo":null}];
    window.initialAnalystDate = {"date_from":"2021-09-24","date_to":"2021-10-01"};

          window.initialAnalystTime = "11:27";
      }

  initTableData();

</script>

我是 Selenium 和 JavaScript 的新手,但我尝试了以下代码来获取数据列表,但它不起作用。

element = driver.findElement(By.tagName("script"));
htmlCode = driver.executeScript("return arguments[0].innerHTML;", element)

接下来我应该尝试什么?网站链接在这里

谢谢!

标签: javascriptpythonselenium

解决方案


您可以使用正则表达式来查找该部分,然后使用它:

from selenium import webdriver
import time
import re

url = 'https://www.benzinga.com/analyst-ratings'
driver.get(url)
time.sleep(5) #Let it load all the data first

htmlSource = driver.page_source
raw_data = re.findall(r'window.initialAnalystData = .*;', htmlSource)[0][29:].split('{')[1:]


#clean data if you want (just one possible way out of many!):

cleaned_data = {}
for data in raw_data:
    clean_data = data.split(',')
    details_to_dic = {}
    for details in clean_data:
        details_temp = details.replace('"', '')
        details_temp = details_temp.split(':')
        try:
            details_to_dic[details_temp[0]] = details_temp[1]
        except:
            pass

    cleaned_data[details_to_dic['name']] = details_to_dic

因此,您将数据作为字典(公司 APA 的示例数据):

print(cleaned_data['APA'])

输出:

{'action_company': 'Downgrades', 'action_pt': 'Lowers', 'analyst': 'Citigroup', 'analyst_name': 'Scott Gruber', 'currency': 'USD', 'date': '2021-10-01', 'exchange': 'NASDAQ', 'id': '61573ba273a5f300019bb64a', 'importance': '0', 'name': 'APA', 'notes': '', 'pt_current': '23.0000', 'pt_prior': '27.0000', 'rating_current': 'Neutral', 'rating_prior': 'Buy', 'ticker': 'APA', 'time': '12', 'updated': '1633106928', 'url': 'https', 'url_calendar': 'https', 'url_news': 'https', 'quote': ''}

推荐阅读