首页 > 解决方案 > 从不同页面抓取标题和副标题

问题描述

我是一名学生,在家上大学。我的老师刚刚给了我这份工作,包括在一定的时间间隔内(从 1 月 22 日到 29 日,以及仅在4 月 1 日和 8 日),并将它们转录到 Excel 文件中以分析所使用的单词。

我在网上搜索并假设这可以被认为是抓取,这让我很开心,因为我应该找到大约 100-150 个标题加上字幕,而且我的截止日期很短。不幸的是,我也是这方面的初学者,我自己所能做的就是找到一种方法来仅从网页中收集标题。像初学者一样,我正在使用带有 Google Chrome 的 Data Miner。

实际上,我应该从“La Gazzetta dello Sport”(我在下面附上其链接)网站上找到所有包含“coronavirus”和/或“covid 19”字样的标题和字幕,但有一个问题:我只能看到标题在搜索页面中,但要获得字幕,我应该点击文章并转到另一个页面。有没有办法使用 Data Miner 获得所有结果,还是应该使用其他程序?

所以,简单来说:我不知道如何让Data Miner从搜索页面收集标题,点击它进入文章页面,收集副标题并返回搜索页面传递给下一个标题和副标题并重复。我不知道这是可能的还是只是科幻小说,就像我说的:我是这方面的新手,这是第一次使用这类工具。

网址:https ://www.gazzetta.it/nuovaricerca/home.shtml?q=coronavirus&dateFrom=2020-01-22&dateTo=2020-01-29

标签: web-scraping

解决方案


推荐阅读