首页 > 解决方案 > Common Crawl data 按关键字搜索所有页面

问题描述

我想知道是否可以使用 python 中的常用爬网 api 查找关键字并检索包含该关键字的页面。例如,如果我查找“堆栈溢出”,它将在 HTML 文件中找到关键字“堆栈溢出”的页面。我已经查看了 api,但我只能进行 URL 查找 - 而不是关键字。感谢您提前回复!

标签: pythonapiweb-crawlerkeyword-searchcommon-crawl

解决方案


如果我是你,我不会为此使用 CommonCrawl。要使用 CommonCrawl,您必须遍历整个CommonCrawl-Dataset。那是 28 亿个网页!

我建议的替代方法是使用 Microsoft 的Bing WebSearch-API。您将获得一个易于使用的 API,每月可免费使用 1000 次。

通过此 API 进行搜索将产生包含查询关键字的网页。从那里,您可以下载网页的 html 源代码并在 python 中再次遍历它以查找关键字的所有用途。


推荐阅读