首页 > 解决方案 > 通过检查是否添加了任何新消息来抓取最新消息

问题描述

from bs4 import BeautifulSoup
import requests
import smtplib
import time


def live_news():
    source = requests.get(
    "https://economictimes.indiatimes.com/news/politics-and-nation/coronavirus- 
     cases-in-india-live-news-latest-updates-april6/liveblog/75000925.cms"
    ).text
   soup = BeautifulSoup(source, "lxml")

   livepage = soup.find("div", class_="pageliveblog")
   each_story = livepage.find("div", class_="eachStory")
   news_time = each_story.span.text
   new_news = each_story.div.text[8::]
   print(f"{news_time}\n{new_news}")

while(True):
    live_news()
    time.sleep(300) 

所以基本上我正在尝试从新闻网站上抓取最新的新闻更新。我正在寻找的是仅打印最新消息及其时间,而不是整个新闻标题。使用上面的代码,我可以获得最新的新闻更新,程序将每 5 分钟向服务器发送一次请求(这是我给出的延迟)。但这里的问题是,如果页面中没有其他最新消息更新,它将在 5 分钟后再次打印之前打印的相同消息。我不希望程序再次打印相同的新闻,而是想在程序中添加一些条件。这样它将每 5 分钟检查一次是否有任何新更新或相同的先前新闻。如果有任何新的更新,那么它应该打印它,否则不应该。

标签: python-3.xweb-scrapingbeautifulsoup

解决方案


我自己找到了答案。我觉得有点愚蠢,它很简单,你只需要一个额外的文件来存储值。由于在每次执行之间,变量值都会被重置,因此您需要一个额外的文件来在需要时读取/写入数据。


推荐阅读