python - 是否有任何硒定位器可以抓取网页的任何内容?
问题描述
目前我使用Python
withselenium
进行抓取。有很多方法selenium
可以抓取数据。而我曾经使用css selectors
.
但后来我意识到,只有tagNames
那些总是在网站上的东西。例如,
并非每个网站都使用类或 Id 之类的,以 Wikipedia 为例。他们通常只使用其中的标签。like <h1>
,<a>
其中没有任何类或 id 。
抓取 USING 存在限制tagNames
,因为它们会抓取标签下的每个元素。
例如:如果我想抓取<p>
标签下的表格内容,那么它会抓取表格内容以及所有不需要的描述。
我的问题是:是否可以刮掉标签下的所需元素,而这些元素不会复制其标签下的所有其他元素?
就像我想从亚马逊上抓取内容一样,它只会选择标签下h1
的产品名称,而不是抓取标签下不是产品名称的所有标题h1
。
如果您发现任何其他方法/定位器可以使用,即使除了 tagName 之外,您也可以告诉我。但条件是它必须出现在每个网站/大多数网站上
任何帮助,将不胜感激 ...
解决方案
推荐阅读
- c# - 使用命令提示符删除下载文件夹中的特定文件
- sql-server - 为什么两列之间的`+`不会产生错误
- ios - 如何将类型擦除与使用关联类型的协议一起使用
- gnuplot - 如何从gnuplot中的gnuplot y tic中删除尾随零?
- jquery - jquery焦点和模糊方法
- c++ - 在 VS2017 中为 cmake 导入 websocketpp
- python-3.x - 如何在分析命名实体时获得 Google Cloud NLU 的置信度分数?
- c++ - 用于写入二进制文件的 C++ 字符串到 C char 数组
- javascript - Javascript:语法错误:“$(this).hasClass”缺少变量名
- data-structures - 时间复杂度 O(n) 的工作原理