beautifulsoup - 用于网页抓取和 xml 解析,这是最好的学习库
问题描述
我对同一工作的多个库感到困惑。我想学习一个可以同时处理 xml 和 html 解析的库。做 elementtree 是否兼容 html 解析。我听说过 lxml、xml.elementtree、beautifulsoup、minidom、scrapy。有谁能够帮我。
解决方案
Scrapy用于抓取网页(从网页中提取数据)因此得名。
Beautiful Soup是用于从 XML 和 HTML 文件中解析/提取数据的库。
xml.elementtree提供 XML 文件的对象表示,是 Python XML 包的 XML 处理模块。它可以很好地用于解析和操作 XML 格式的数据。
lxml与他们声称的兼容但优于 Python XML 模块的 elementtree 但本质上是相同的,但是我从未使用它来解析 HTML 文件。
根据我的经验,我使用 Scrapy 从各种没有任何 API 来提取数据的用户面板中获取数据。然而,我主要使用 Beautiful Soup 来解析 HTML 文件,因为它非常简洁且易于使用。关于 XML 解析,我主要使用 Python XML 包,但是我从来没有执行任何复杂的 XML 解析,所以 Python XML 包涵盖了我需要的一切。
正确的工具实际上取决于您的要求。如果您需要库来解析 XML 和 HTML 文件,我会选择 Beautiful Soup,因为它非常易于使用,并且您拥有大量在线文档。
推荐阅读
- list - 如何使用 foldr 在列表中相互添加变量?
- javascript - 获取 span 标签内的值并根据条件更改背景颜色?
- python - 创建比较数据框的三向维恩图的最佳方法?
- c# - c#不能隐式转换类型
- python-3.x - 平方多维数组,包括交叉项,没有 for 循环
- python - Django 过滤器错误子选择返回 2 列 - 预期为 1
- javascript - 重复 Javascript 幻灯片
- python - Django 将方括号和引号添加到 charfield 输入
- windows - Makefile 未读取时间戳变量
- swift - 为 UIButton 添加左右填充