python - How can I exclude the list of web-pages from google-search results?
问题描述
"minus" sign doesn't fit because the list consists of ~2000 entries. I'm just beginner in python, so, please explain as to 5-year old, if possible Thank you much in advance!
解决方案
大概您正在从 Python 程序中获取 Google 搜索结果。因此,当您阅读结果时,您可以在 Python 程序中排除列表中的网页,而不是试图让 Google 为您做这件事。您可以使用函数式编程技术,例如调用filter
它。
理想情况下,您可以通过比较链接的 URL 来做到这一点,但如果您愿意牺牲准确性,则可以通过比较链接的标题来实现,如果您的列表中只有标题而不是 URL。但是对于这个目的,URL 肯定更好。
因此,您可以使用 Beautiful Soup 之类的库解析 Google 搜索结果,提取链接的 URL,并过滤掉(使用filter
)与列表中任何 URL 相同的那些(您可以使用def
,定义一个函数检查给定的 URL 是否在您的列表中)。但您必须小心,因为有时 Google 搜索结果链接会通过重定向到真实 URL 的 Google 网站进行,以进行排名。
推荐阅读
- python - 使用 python 和烧瓶更改 css
- r - 为什么 plm 中的 make.pbalanced 在中型数据集上如此缓慢?
- python - Tkinter - 调整窗口大小,而不改变框架/小部件的尺寸
- laravel - Laravel:在此服务器上找不到资源
- db2 - 从 db2 到 hdfs 的 sqoop 导入问题
- amazon-s3 - S3 生命周期规则不删除过期对象删除标记
- tfs - http://tfs.visualstudio.com/ 上的 Team Foundation Server 发生了什么
- crc - 我无法从数据集中推导出 CRC16 算法
- c# - 如何制作命令行 C# 文本编辑器?
- c# - 超时错误 Sql 异常 0 x 80131904 .Net Core