python - 查找多个网页的所有日期/事件
问题描述
我是 python / web 抓取的超级新手,我正在尝试使用 beautifulsoup 来查找各种网页中列出的所有事件(日期),然后将它们输出到 CSV 文件。
这些是我一直在尝试的网页。
https://ir.monday.com/news-and-events/events
https://investor.okta.com/events
https://investors.atlassian.com/events-and-presentations/default.aspx
任何帮助,将不胜感激!
解决方案
Webscraping 通常是找到正确的 ids/class 名称的组合,您可以使用它们来过滤掉您需要的数据。
在investor.okta.com/events 网站页面的情况下。
nir-widget--field nir-widget--event--date
是列表中日期的类名。例如,您必须找到这些标识符并搜索您使用 beautifulsoup 收集的页面。
收集完您需要的所有数据后,您可以将数据存储在 list/dict 或panda数据框中。
然后,您可以使用 csv 包或 pandas 函数将结果导出为 csv 或其他文件格式。
为了了解更多关于实用性的信息,请查看有关网络抓取和 csv 导出的在线教程,以了解如何设置开发环境以及如何使用 git。