首页 > 解决方案 > 创建一个有 100 个网站的网络爬虫的过程和成本是什么?

问题描述

我需要创建一个至少有 100 个网站的网络爬虫。它们都不提供任何类型的 API 或 RSS。刮是唯一的选择。我进行了研究,但找不到有关抓取的详细信息。我需要在这个项目上关注哪些技术,如果我想与数据科学家合作,理想情况下需要多少费用?我对编程很陌生,但试图弄清楚如何创建这样的东西。

我已经为基于 RSS 的网站创建了一个自动化流程。我正在将信息输入 Airtable。但我希望为不提供 RSS 的网站创建一个更复杂的解决方案。

我正在考虑使用 Python 与 Selenium 和 BeautifulSoup 框架来抓取这些数据并将其转化为有用的东西。然后我将在这个数据库之上创建一个搜索工具,人们将能够使用过滤器来获取所需的信息。最后一步是根据过滤结果创建自动文档,但这可以通过 G-drive doc API 解决。

标签: pythonweb-scrapingdata-science

解决方案


理想情况下要花多少钱?

不用花一分钱就可以搞定。运行您自己的服务器,或寻找适合您需要的免费/付费 python 服务器托管。自己编码,或花钱请人来做。同样,取决于确切的工作量。

我需要在这个项目上关注哪些技术?

你已经回答了你的问题。带有 BeautifulSoup 的 Python 对于业余项目来说已经足够了。了解用于搜索工具的微型 Web 框架,例如 Flask 或 Django。


推荐阅读