javascript - 如何通过 Selenium 从 JavaScript 中的函数中提取“文本”?
问题描述
更新:Jonas 提供的脚本已经解决了大部分问题。现在,我正在尝试找到一种方法来使用 datepicker 或 sendkey 来设置日期范围,因为每次重新运行代码时它都会自动花费一天。
date_start = driver.find_element(By.Xpath, 'date_from')
date_end = driver.find_element(By.Xpath, 'date_to')
date_start.sendKeys("2021-09-24")
date_end.sendKeys("2021-10-01")
原始问题: 我正在使用 Selenium WebDriver.Chrome 从无法突出显示以从网站复制和粘贴的表中提取数据,当我尝试使用 BeautifulSoup 提取数据时,我发现数据在 JavaScript 的功能下。Java 表的 HTML 代码如下所示:
<script>
function initTableData() {
window.initialAnalystData = [{"action_company":"Initiates Coverage On","action_pt":"Announces","analyst":"BTIG","analyst_name":"James Sullivan","currency":"USD","lastTradePrice":24.89},"logo":null}];
window.initialAnalystDate = {"date_from":"2021-09-24","date_to":"2021-10-01"};
window.initialAnalystTime = "11:27";
}
initTableData();
</script>
我是 Selenium 和 JavaScript 的新手,但我尝试了以下代码来获取数据列表,但它不起作用。
element = driver.findElement(By.tagName("script"));
htmlCode = driver.executeScript("return arguments[0].innerHTML;", element)
接下来我应该尝试什么?网站链接在这里。
谢谢!
解决方案
您可以使用正则表达式来查找该部分,然后使用它:
from selenium import webdriver
import time
import re
url = 'https://www.benzinga.com/analyst-ratings'
driver.get(url)
time.sleep(5) #Let it load all the data first
htmlSource = driver.page_source
raw_data = re.findall(r'window.initialAnalystData = .*;', htmlSource)[0][29:].split('{')[1:]
#clean data if you want (just one possible way out of many!):
cleaned_data = {}
for data in raw_data:
clean_data = data.split(',')
details_to_dic = {}
for details in clean_data:
details_temp = details.replace('"', '')
details_temp = details_temp.split(':')
try:
details_to_dic[details_temp[0]] = details_temp[1]
except:
pass
cleaned_data[details_to_dic['name']] = details_to_dic
因此,您将数据作为字典(公司 APA 的示例数据):
print(cleaned_data['APA'])
输出:
{'action_company': 'Downgrades', 'action_pt': 'Lowers', 'analyst': 'Citigroup', 'analyst_name': 'Scott Gruber', 'currency': 'USD', 'date': '2021-10-01', 'exchange': 'NASDAQ', 'id': '61573ba273a5f300019bb64a', 'importance': '0', 'name': 'APA', 'notes': '', 'pt_current': '23.0000', 'pt_prior': '27.0000', 'rating_current': 'Neutral', 'rating_prior': 'Buy', 'ticker': 'APA', 'time': '12', 'updated': '1633106928', 'url': 'https', 'url_calendar': 'https', 'url_news': 'https', 'quote': ''}
推荐阅读
- string - Sorting is causing a problem with apostrophe
- laravel - 传递给 App\Http\Controllers\NoticeCommentController::destroy() 的参数 1 必须是 App\NoticeComment 的实例,给定 App\Notice 的实例
- go - 在两个不同的结构上调用相同的函数
- flutter - SharedPreference returning null flutter
- spring-statemachine - How to access StateContext within an interceptor
- angular - Ionic 4 ion-tabs 导航问题:按下后退按钮时,它转到上一个选项卡而不是上一页
- python - 如何检查蛇游戏中的蛇是否穿过食物?
- amazon-web-services - DynamoDB 多个过滤条件,给出错误 - buildTree 错误:未设置参数:ConditionBuilder
- mysql - 计算累计输赢百分比
- c# - jQuery dataTables:基于字符串的过滤器