javascript - 使用 Python 对 Javascript 表(带有网格和列表视图)进行 Web 抓取 - Beautiful Soup
问题描述
我正在尝试从该网站的 json 表中解析数据。
网址 - https://boxes.mysubscriptionaddiction.com/subscription_boxes_for/food。
我主要需要列出的所有食品订阅框的名称、评级和描述。我在这里面临一些挑战。一是表格有 2 个视图 - 网格和列表视图。我们如何指定我们在代码中引用的表视图?其次是我得到了一个
ValueError - Timeout value connect was Timeout(connect=<object object at 0x000002767CECD5C0>,
read=<object object at 0x000002767CECD5C0>, total=None), but it must be an int, float or None.
不知道这意味着什么。
我的代码:
from pandas.io.html import read_html
from selenium import webdriver
import json
import requests
import os
import sys
from bs4 import BeautifulSoup
import requests
driver = webdriver.Firefox(executable_path='C:\Drivers\geckodriver.exe')
driver.get('https://boxes.mysubscriptionaddiction.com/subscription_boxes_for/food')
table = driver.find_element_by_xpath('/html/body/div[3]/div/span/div[2]/div/div[1]/div[3]/div[3]/table')
table_html = table.get_attribute('innerHTML')
bs = BeautifulSoup(table_html, 'html.parser')
rows = bs.select('tbody tr')
print(bs)
解决方案
以下是如何获取您正在寻找的数据:(data
是一个包含信息的字典)
import requests
from bs4 import BeautifulSoup
import json
scrape_url = 'https://boxes.mysubscriptionaddiction.com/subscription_boxes_for/food'
r1 = requests.get(scrape_url)
page = r1.content
soup = BeautifulSoup(page, 'html.parser')
scripts = soup.find_all('script')
data_str = scripts[11].contents[0].strip()
data = json.loads(data_str,strict=False)
print(data['itemListElement'])
推荐阅读
- react-native - 使用 Auth0 的“无效客户端”并使用 Apple 登录
- linq - 无论如何返回 int 和 null 嵌套条件?
- powerbi - Power BI Dax Group By Measure - 显示今天之前的日期
- php - PHP是否继承了它扩展的属性
- python - 从已完成的 celery 任务中清除 redis
- python - 为什么这个绑定函数在 tkinter 中不起作用?
- mongodb - 许多文档中的 mongodb 平均数组
- puppeteer - 如何码头化或构建 puppeteer js?
- c - C 父子通讯增加打印计数器
- r - 如果两行有一个匹配值和一个不匹配值,有没有办法删除数据框中的一行?