首页 > 解决方案 > 需要从内容流中抓​​取

问题描述

我正在尝试从yahoo 股市新闻中抓取网页并获取标题、新闻描述和时间。不幸的是,在使用 BeautifulSoup 时,我只能获得前 10 个标题。我认为这是因为页面会随着您滚动而更新。有谁知道如何“滚动”页面。我正在尝试一次获取一整天的文章(约 100 篇文章)。

这是我当前的代码:

page = result.content
soup = bs4.BeautifulSoup(page, 'lxml')
main = soup.find(id = 'Main')
cells = main.find_all(class_ = 'js-stream-content Pos(r)')
results = []
print(len(cells))
for cell in cells:
  title = cell.find('a')
  print(title.text)

标签: pythonweb-scrapingbeautifulsoup

解决方案


看看 pyautogui 来模拟滚动。

Pyautogui 滚动


推荐阅读