python - 如何使用 BeautifulSoup 从网站中提取大量数据?
问题描述
我知道如何使用 BeautifulSoup 从网站中提取链接和其他数据。例如,我从该站点https://finance.yahoo.com/中提取所有链接。但是,它为我提供了一组非常有限的链接(今天的文章或最近的文章),而我希望每个月都有文章的链接。我的意思是,例如,从 1 月 1 日开始获取所有链接。
import requests
from bs4 import BeautifulSoup
url0 = 'https://finance.yahoo.com/'
page0 = requests.get(url0)
soup0=BeautifulSoup(page0.text, 'lxml')
urls=[]
for link in soup0.find_all('a'):
if '/news' in link.get('href'):
urls.append(link.get('href'))
full_urls=['https://finance.yahoo.com' + u for u in urls]
解决方案
推荐阅读
- javascript - 如何删除此按钮的此图形错误?
- asp.net - 当我单击确认按钮时,我想打开一个弹出窗口并确认“您确定”、“是”、“否”。我该怎么做?
- vue.js - 在 Google App Engine 上部署 Vuejs 应用程序得到 404 错误
- sql-server-2012 - 我一直在使用存储过程将数据加载到 SQL Server 2012 中,但现在它抛出以下错误
- r - 重复 R 中的特定行
- java - 在 Vert.x 中使用 Jackson 的 JSON Java 8 LocalDateTime 格式
- nat - VxWorks BSP 宏
- applescript - 使用 AppleScript 在 eBay 上单击按钮时出现错误消息
- gradle - 构建被配置为首选设置存储库而不是项目存储库,但存储库“Google”是由构建文件“build.gradle”添加的
- react-native - 如何在android上注册两个同名RNCSafeAreaProvider的视图