首页 > 解决方案 > 用于网页抓取和 xml 解析,这是最好的学习库

问题描述

我对同一工作的多个库感到困惑。我想学习一个可以同时处理 xml 和 html 解析的库。做 elementtree 是否兼容 html 解析。我听说过 lxml、xml.elementtree、beautifulsoup、minidom、scrapy。有谁能够帮我。

标签: beautifulsoupscrapyelementtreeminidomcelementtree

解决方案


Scrapy用于抓取网页(从网页中提取数据)因此得名。

Beautiful Soup是用于从 XML 和 HTML 文件中解析/提取数据的库。

xml.elementtree提供 XML 文件的对象表示,是 Python XML 包的 XML 处理模块。它可以很好地用于解析和操作 XML 格式的数据。

lxml与他们声称的兼容但优于 Python XML 模块的 elementtree 但本质上是相同的,但是我从未使用它来解析 HTML 文件。

根据我的经验,我使用 Scrapy 从各种没有任何 API 来提取数据的用户面板中获取数据。然而,我主要使用 Beautiful Soup 来解析 HTML 文件,因为它非常简洁且易于使用。关于 XML 解析,我主要使用 Python XML 包,但是我从来没有执行任何复杂的 XML 解析,所以 Python XML 包涵盖了我需要的一切。

正确的工具实际上取决于您的要求。如果您需要库来解析 XML 和 HTML 文件,我会选择 Beautiful Soup,因为它非常易于使用,并且您拥有大量在线文档。


推荐阅读