python - Common Crawl data 按关键字搜索所有页面
问题描述
我想知道是否可以使用 python 中的常用爬网 api 查找关键字并检索包含该关键字的页面。例如,如果我查找“堆栈溢出”,它将在 HTML 文件中找到关键字“堆栈溢出”的页面。我已经查看了 api,但我只能进行 URL 查找 - 而不是关键字。感谢您提前回复!
解决方案
如果我是你,我不会为此使用 CommonCrawl。要使用 CommonCrawl,您必须遍历整个CommonCrawl-Dataset。那是 28 亿个网页!
我建议的替代方法是使用 Microsoft 的Bing WebSearch-API。您将获得一个易于使用的 API,每月可免费使用 1000 次。
通过此 API 进行搜索将产生包含查询关键字的网页。从那里,您可以下载网页的 html 源代码并在 python 中再次遍历它以查找关键字的所有用途。
推荐阅读
- android - 上传时流意外结束
- python-3.x - “ValueError:未找到表”:Python pd.read_html 未加载输入文件
- java - TermQuery 没有给出预期的结果作为 QueryParser - Lucene 7.4.0
- php - php (function.php) 文件函数调用在另一个文件中
- python - argparse 仅在位置参数之前解析
- ruby-on-rails - 通过 Rails 上的活动管理员从 S3 下载 pdf
- ios - iOS 无法在移动数据/4G 网络上上传图像,而在 Wifi 中它工作正常
- javascript - 图像或 pdf 的文件输入验证
- javascript - 将文件下载到服务器时如何更改文件的所有者
- python - openstack keystone 命令失败并出现内部服务器错误 500 - python 目标 WSGI 脚本 .. 无法作为 Python 模块加载