首页 > 解决方案 > SELENIUM Python - 尝试访问某些数据进行处理

问题描述

我从 Selenium 和 BS 开始我的网络抓取经验,但还遇到了嵌入在 HTML 中的一条信息,我无法访问。

我正在使用最新版本的 selenium 和 By。

from selenium import webdriver
from selenium.webdriver.common.by import By

这是我要存储的信息:

<a class="product-overlay track-impressions" style="" onclick="if (window.isInIso) {
                        event.preventDefault();window.top &amp;&amp; window.top.postMessage({
                        fromMonolith: true,
                        link: '/en/s1/product/dell-poweredge-r240-intel-xeon-e-2236-servers-14393633?isSale=true&amp;supplier=406802'
            })
                    } else {
                        
                    };dataLayer.push({'event':'productClick', 'ecommerce': { 'click': {
    'actionField': {
      'list': 'Ausverkauf',
      'id': null
    },
    '**products': [
      {
        'brand': 'Dell',
        'category': 'Server',
        'id': '14393633',
        'name': 'PowerEdge R240',
        'price': '999.0',
        'variant': 'Intel Xeon E-2236',
        'dg_brandId': 5288,
        'dimension13': true,
        'dimension72': false,
        'position': 1,
        'dimension12': 19,
        'dg_priceExcl': 'CHF 927.58',
        'dg_productGroup1': 389,
        'dg_productGroup2': 395,
        'dg_productGroup4': 1197,
        'dimension73': 0.0,
        'dimension49': 0,
        'dimension71': 'Stock'**
      }
    ]
  }}});" href="/en/s1/product/dell-poweredge-r240-intel-xeon-e-2236-servers-14393633?isSale=true&amp;supplier=406802" tabindex="-1"></a>

当然这个数据的意义

   'brand': 'Dell',
    'category': 'Server',
    'id': '14393633',
    'name': 'PowerEdge R240',
    'price': '999.0',
    'variant': 'Intel Xeon E-2236',
    'dg_brandId': 5288,
    'dimension13': true,
    'dimension72': false,
    'position': 1,
    'dimension12': 19,
    'dg_priceExcl': 'CHF 927.58',
    'dg_productGroup1': 389,
    'dg_productGroup2': 395,
    'dg_productGroup4': 1197,
    'dimension73': 0.0,
    'dimension49': 0,
    'dimension71': 'Stock'**

网址是

https://www.digitec.ch/en/sale?listmode=true&so=6&take=1#listhead

已经修改为仅显示 1 以清理 HTML 产品

知道哪种方法带我去那里吗?

在此先感谢社区。

标签: pythonseleniumselenium-webdriverweb-scraping

解决方案


推荐阅读