首页 > 解决方案 > 如何使用漂亮的汤解析大 XML 文件?

问题描述

我正在尝试解析一个名为的 XML 文件document.xml,其中包含大约 400000 个字符(包括标签、断线、空格) init 找到下面的代码

document_xml_file_object = open('document.xml', 'r')
document_xml_file_content = document_xml_file_object.read()

xml_content = BeautifulSoup(document_xml_file_content, 'lxml-xml')
print("XML CONTENT: ", xml_content)

当我在xml_content下面打印时是我的输出:

XML CONTENT:  <?xml version="1.0" encoding="utf-8"?>

对于较小的文件,其打印完整的 XML 代码。任何人都可以帮助我解决它为什么会发生。

编辑:单击此处查看我的 XML 内容。

提前致谢

标签: python-3.xbeautifulsoup

解决方案


对于大文件,最好使用像xml.sax这样的行解析器。beautifulsoup会将整个文件加载到内存中并解析,而使用xml.sax您将使用更少的内存。


推荐阅读