python - 创建一个有 100 个网站的网络爬虫的过程和成本是什么?
问题描述
我需要创建一个至少有 100 个网站的网络爬虫。它们都不提供任何类型的 API 或 RSS。刮是唯一的选择。我进行了研究,但找不到有关抓取的详细信息。我需要在这个项目上关注哪些技术,如果我想与数据科学家合作,理想情况下需要多少费用?我对编程很陌生,但试图弄清楚如何创建这样的东西。
我已经为基于 RSS 的网站创建了一个自动化流程。我正在将信息输入 Airtable。但我希望为不提供 RSS 的网站创建一个更复杂的解决方案。
我正在考虑使用 Python 与 Selenium 和 BeautifulSoup 框架来抓取这些数据并将其转化为有用的东西。然后我将在这个数据库之上创建一个搜索工具,人们将能够使用过滤器来获取所需的信息。最后一步是根据过滤结果创建自动文档,但这可以通过 G-drive doc API 解决。
解决方案
理想情况下要花多少钱?
不用花一分钱就可以搞定。运行您自己的服务器,或寻找适合您需要的免费/付费 python 服务器托管。自己编码,或花钱请人来做。同样,取决于确切的工作量。
我需要在这个项目上关注哪些技术?
你已经回答了你的问题。带有 BeautifulSoup 的 Python 对于业余项目来说已经足够了。了解用于搜索工具的微型 Web 框架,例如 Flask 或 Django。
推荐阅读
- python - 连接数据框中的所有列
- python - 当 pytest.ini 位于测试子目录而不是项目根目录中时,未注册 pytest.ini 中的 pytest 配置
- python - 如何从 Django 发送电子邮件
- netlogo - 在 netlogo 中处理 patch-here 时正确的语法是什么?
- batch-file - 批处理 - 将程序输出重定向到当前控制台
- c# - 我正在尝试将查询从 sqlite 数据库输出到列表,但我没有得到正确的结果
- node.js - 建立关系时出现猫鼬验证错误
- python - Python datetime 到日期和时间
- google-bigquery - BigQuery ASOF 加入用例
- python - Python sounddevice 在树莓派上不发出声音