python - 需要从内容流中抓取
问题描述
我正在尝试从yahoo 股市新闻中抓取网页并获取标题、新闻描述和时间。不幸的是,在使用 BeautifulSoup 时,我只能获得前 10 个标题。我认为这是因为页面会随着您滚动而更新。有谁知道如何“滚动”页面。我正在尝试一次获取一整天的文章(约 100 篇文章)。
这是我当前的代码:
page = result.content
soup = bs4.BeautifulSoup(page, 'lxml')
main = soup.find(id = 'Main')
cells = main.find_all(class_ = 'js-stream-content Pos(r)')
results = []
print(len(cells))
for cell in cells:
title = cell.find('a')
print(title.text)
解决方案
看看 pyautogui 来模拟滚动。
推荐阅读
- angular - 如何从动作 ngxs 接收 http 响应
- ruby-on-rails - 弹性宝石。为什么类的比较不正确?
- google-api - Google Sheets API 将单个 qoute 添加到文本
- c# - 如何在 xaml uwp 应用程序的 TabView 控件中设置选项卡标题位置底部
- kubernetes - 使用带有位置 ipam 的 Macvlan CNI 插件创建的多个网络 - 跨节点通信未发生
- java - java 15 纳秒精度导致 Linux 环境出现问题
- android - 为 Xamarin Android ZXing 自定义视图着色
- vue.js - 为什么我的 Nuxt/vue 页面会被 robots.txt 阻止?
- r - 在表上使用 pivot_wider 但保留行数
- python - 如何连接列表中的项目?