首页 > 解决方案 > 网页变更监控

问题描述

我想监控一个公告网页,这样当有新的公告进来时,我可以尽快执行任务。目前我正在使用带有请求包的python:

allText = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}).text

然后找到与文章项目对应的具有特定标题的文本的第一次出现:

ind = allText.find(''<li class="article-list-item">''); allText = allText[ind:]; ind = allText.find(''</a>''); allText = allText[0:ind]

我每隔约 1.5 秒重复一次命令(即刷新页面)。

问题是:

  1. 它不够快。在出现新网页后,我的程序通常需要 3 秒以上才能检测到它。我猜文本查找占用了太多时间。有更快的方法吗?

  2. 在某些网站上,文章是隐藏的,即使浏览器仍然可以看到,requests 命令也不会返回任何内容。该网页的示例源代码是:

    <div data-app="recent-activity" data-url="/hc/api/internal/recent_activities">/div>

请问我应该如何刮这种页面?

标签: pythonhtml

解决方案


推荐阅读