首页 > 解决方案 > 从多个网站抓取/提取数据的最佳方式

问题描述

我是上述问题的新手,刚刚开始学习抓取和抓取网站。

我开始了解 python BeautifulSoup4,它非常适合从网站提取数据。我的主要问题是处理大量网站。

例如超过 10000 个不同的网站。据我所知并研究到现在,当我们告诉程序不同标签的类时,爬取就完成了,例如

<h3 class="this">Hello World </h3>

所以从页面中提取它。python scrapy 程序将如下所示。

    url = 'http://www.anyurl.com'
    source = requests.get(url)
    plain_text = source.text
    soup = BeautifulSoup(plain_text,"html.parser")
        h3_text = soup.find('h3', {'class':'this'}) 
        print(h3_text.text)

从上面的示例中,很明显我们有一个站点,其中有一个具有类“this”的 h3 标签。

现在有超过 10000 个不同的网站,具有不同的类和结构。最好的方法是什么?我正在尝试开发一种类似于“Google”的搜索引擎,但具有一些特定数量的网站(即 10000 个或将来可能更多)。

标签: pythonbeautifulsoupscrapy

解决方案


推荐阅读