web-scraping - 使用 html 标签从谷歌搜索页面抓取网页
问题描述
我正在尝试进行谷歌搜索并将前 5 个结果(标题/URL)放入 excel 文档中。
我尝试使用“数据抓取”,但根据搜索词,谷歌会显示不同的页面。有时它会有视频、图像或相关的搜索词。所以大多数时候,我实际上无法从页面中获取所有结果,因为 uiPath 无法识别它们,可能是因为 div 不同。所以我的想法是通过 html 标签获取它们,因为每个标题都使用 H3,但我找不到这样做的方法。
还尝试了 find children > get attributes 但没有成功,我觉得这可能是最好的方法,我只是没有足够的试验来使它工作。尝试了几个小时。
任何人都有类似的问题并找到了解决方案?
解决方案
当我这样做之前,我必须进行多次刮擦才能获取数据。第一次抓取将获得初始页面结果,然后您可以执行第二次以获取第 2 页上的数据。我曾遇到过必须在第一页上进行多次刮擦才能获取所有信息的情况,但在第 1 页之后,数据是一致的且易于刮取。希望这可以帮助。
推荐阅读
- swift - 平滑色度键的边缘 -CoreImage
- json - 如何在不进行语法检查的情况下美化 json 文件?
- vb.net - 通过 USB 将原始文本发送到打印机
- parallel-processing - PBS 扭矩:如何解决时间相差很大的并行任务中的核心浪费问题?
- javascript - React - 如何从循环中获取输入
- python - Keras 输入层误解输入形状
- python - 以pythonic方式加载具有相关特征集的多个保存的机器学习模型
- c# - Google Play 游戏排行榜发布分数报告成功但不更新
- python - 使用多根工作区时如何为 Python 语言服务器指定正确的 Python 版本
- r - 图例在 ggplot 中添加了不确定性