python - 从多个网站抓取/提取数据的最佳方式
问题描述
我是上述问题的新手,刚刚开始学习抓取和抓取网站。
我开始了解 python BeautifulSoup4,它非常适合从网站提取数据。我的主要问题是处理大量网站。
例如超过 10000 个不同的网站。据我所知并研究到现在,当我们告诉程序不同标签的类时,爬取就完成了,例如
<h3 class="this">Hello World </h3>
所以从页面中提取它。python scrapy 程序将如下所示。
url = 'http://www.anyurl.com'
source = requests.get(url)
plain_text = source.text
soup = BeautifulSoup(plain_text,"html.parser")
h3_text = soup.find('h3', {'class':'this'})
print(h3_text.text)
从上面的示例中,很明显我们有一个站点,其中有一个具有类“this”的 h3 标签。
现在有超过 10000 个不同的网站,具有不同的类和结构。最好的方法是什么?我正在尝试开发一种类似于“Google”的搜索引擎,但具有一些特定数量的网站(即 10000 个或将来可能更多)。
解决方案
推荐阅读
- javascript - 如何删除项目并刷新js中的下拉值列表
- c++ - 在 C++ 中使用 cin 在 int 变量中输入 char 和 int
- spring-webflux - 事务同步:如何使用 Reactor Kafka 和 R2DBC 创建 ChainedKafkaTransactionManager bean
- css - 使用 alpinejs 进行滑块转换
- java - 用于下载多个文件的 Aws S3 预签名 URL
- php - 获取产品图库的图片编号 x 代替原始产品图片
- python - FirefoxWebElement.get_attribute 上的 StaleElementReferenceException 甚至在 WebDriverWait 之后
- python - 带有 chromedriver 的 Selenium 不适用于 Linux cron 选项卡中的 Python 脚本
- android - 如何使移动按钮可点击
- flutter - 如何在我的产品上创建添加减号按钮?