首页 > 解决方案 > 网络爬虫与 Html 解析器

问题描述

网络爬虫和解析器有什么区别?

在 java 中有一些用于获取库的名称。例如,他们将 nutch 命名为爬虫,将 jsoup 命名为解析器。

他们的目的是一样的吗?

他们在工作上完全相似吗?

谢谢

标签: javaweb-crawlerjsoupcrawler4j

解决方案


jsoup库是一个用于处理实际 HTML 的 Java 库。它能够获取和使用 HTML。但是,它通常不是Web-Crawler,因为它一次只能获取一个页面(无需编写自定义程序 (=crawler)jsoup来获取、提取和获取新的 url)。

网络爬虫使用 HTML 解析器从先前获取的网站中提取URL,并将这个新发现的 URL 添加到其边界

可以在这个答案中找到 Web 爬虫的一般序列图:crawler4j 遵循什么步骤来获取数据?

总结一下:

HTML 解析器是 Web 爬虫的必要组件,用于从给定的 HTML 输入中解析和提取 URL。然而,单独的 HTML 解析器并不是一个网络爬虫,因为它缺乏一些必要的功能,例如维护以前访问过的 URL、礼貌等。


推荐阅读