首页 > 解决方案 > 如何使用 BeautifulSoup 从网站中提取大量数据?

问题描述

我知道如何使用 BeautifulSoup 从网站中提取链接和其他数据。例如,我从该站点https://finance.yahoo.com/中提取所有链接。但是,它为我提供了一组非常有限的链接(今天的文章或最近的文章),而我希望每个月都有文章的链接。我的意思是,例如,从 1 月 1 日开始获取所有链接。

    import requests
    from bs4 import BeautifulSoup
    url0 = 'https://finance.yahoo.com/'
    page0 = requests.get(url0)
    soup0=BeautifulSoup(page0.text, 'lxml')
    urls=[]
    for link in soup0.find_all('a'):
      if '/news' in link.get('href'):
      urls.append(link.get('href'))       
    full_urls=['https://finance.yahoo.com' + u for u in urls]

标签: pythonhtmlparsingweb-scrapingbeautifulsoup

解决方案


推荐阅读