java - 网络爬虫与 Html 解析器
问题描述
网络爬虫和解析器有什么区别?
在 java 中有一些用于获取库的名称。例如,他们将 nutch 命名为爬虫,将 jsoup 命名为解析器。
他们的目的是一样的吗?
他们在工作上完全相似吗?
谢谢
解决方案
该jsoup
库是一个用于处理实际 HTML 的 Java 库。它能够获取和使用 HTML。但是,它通常不是Web-Crawler,因为它一次只能获取一个页面(无需编写自定义程序 (=crawler)jsoup
来获取、提取和获取新的 url)。
网络爬虫使用 HTML 解析器从先前获取的网站中提取URL,并将这个新发现的 URL 添加到其边界。
可以在这个答案中找到 Web 爬虫的一般序列图:crawler4j 遵循什么步骤来获取数据?
总结一下:
HTML 解析器是 Web 爬虫的必要组件,用于从给定的 HTML 输入中解析和提取 URL。然而,单独的 HTML 解析器并不是一个网络爬虫,因为它缺乏一些必要的功能,例如维护以前访问过的 URL、礼貌等。
推荐阅读
- html - 如何在网络上播放音频文件但未启用下载?
- c# - Azure .NET MVC 核心应用程序:提交表单时未重定向用户
- snowflake-cloud-data-platform - Snowflake UPDATE 表和要更新的参数化列
- webrtc - 在WebRTC中,参与者是否需要连接到同一个TURN服务器?
- swift - 如何使用 Swift Timer 调用具有返回值的函数?
- amazon-web-services - 使用 boto3 编辑现有 IAM 角色信任策略
- go - 更新 crypto-config.yaml 文件并在网络中更新
- c++ - 对话框 UI 冻结/无响应,直到所有元素都加载到我的 Qlistwidget 中。有什么办法可以解决这个问题?
- arrays - 如何使用 $1 使用 sublime 删除正则表达式中的空格?
- python - 使用两个列表创建python dict时,如果键具有多个值时的键列表,我该怎么做