首页 > 解决方案 > 是否有任何硒定位器可以抓取网页的任何内容?

问题描述

目前我使用Pythonwithselenium进行抓取。有很多方法selenium可以抓取数据。而我曾经使用css selectors.

但后来我意识到,只有tagNames那些总是在网站上的东西。例如,

并非每个网站都使用类或 Id 之类的,以 Wikipedia 为例。他们通常只使用其中的标签。like <h1><a>其中没有任何类或 id 。

抓取 USING 存在限制tagNames,因为它们会抓取标签下的每个元素。

例如:如果我想抓取<p>标签下的表格内容,那么它会抓取表格内容以及所有不需要的描述。

我的问题是:是否可以刮掉标签下的所需元素,而这些元素不会复制其标签下的所有其他元素?

就像我想从亚马逊上抓取内容一样,它只会选择标签下h1的产品名称,而不是抓取标签下不是产品名称的所有标题h1

如果您发现任何其他方法/定位器可以使用,即使除了 tagName 之外,您也可以告诉我。但条件是它必须出现在每个网站/大多数网站上

任何帮助,将不胜感激 ...

标签: pythonpython-3.xseleniumweb-scrapingbeautifulsoup

解决方案


推荐阅读