首页 > 解决方案 > 如何从url解析xml

问题描述

一般来说,我想做的是从 url 解析 xml。这就是我所做的:

  1. 我在 <'textarea'><'\textarea'> 标签中包含的 html 文件上编写了 xml 代码:

    <textarea rows="1000" cols="200" style="border:none;">
    <?xml version="1.0"?>
    <data>
      <gambar>
        <id>wcl01</id>
        <url>https://1.bp.blogspot.com/- j9yARC6mAuY/Xp4aUTxe6eI/AAAAAAAAAGA/NegvRkwYdVAXhnTsrWoXYcjAzsHfR6BOQCLcBGAsYHQ/s320/Konferensi%2BIIWAS%2Bdi%2BVietnam.jpg</url>
      </gambar>
      <gambar>
        <id>wcl02</id>
        <url>https://1.bp.blogspot.com/-aIkYkd3ePMY/XqDDsTMYMAI/AAAAAAAAAHA/QKZOQ8cPr_0LUfLNrYrA3w6gvNV-ao-QCLcBGAsYHQ/s320/Konferensi%2BAptikom%2Bdi%2BBandung%2B1.jpg</url>
      </gambar>
    </data>
    </textarea>
    

在网站上,它是这样的:

在此处输入图像描述

  1. 然后我使用以下代码解析 xml:

    from urllib.request import urlopen
    from xml.etree.ElementTree import parse
    from lxml import etree
    var_url = urlopen('https://imanparyudi.000webhostapp.com/gambar.html')
    xmldoc = parse(var_url)
    elem = etree.XML(xmldoc, parser=parser)
    

但我收到了这个错误:

    File "<string>", line unknown ParseError: XML or text declaration not at start of entity: line 2, column 0

我假设这个错误是由 xml 代码开头的空格引起的。所以,我试图删除这个空格,首先:etree.XMLParser(remove_blank_text=True) 和第二个:etree.XMLParser(recover=True) 像这样:

    from urllib.request import urlopen
    from xml.etree.ElementTree import parse
    from lxml import etree
    parser = etree.XMLParser(remove_blank_text=True)
    var_url = urlopen('https://imanparyudi.000webhostapp.com/gambar.html')
    xmldoc = parse(var_url)
    elem = etree.XML(xmldoc, parser=parser)

    from urllib.request import urlopen
    from xml.etree.ElementTree import parse
    from lxml import etree
    parser = etree.XMLParser(recover=True)
    var_url = urlopen('https://imanparyudi.000webhostapp.com/gambar.html')
    xmldoc = parse(var_url)
    elem = etree.XML(xmldoc, parser=parser)

但是,两种方式都会给出相同的错误:

    File "<string>", line unknown ParseError: XML or text declaration not at start of entity: line 2, column 0
  1. 所以,我的问题是:

一种。这个问题是由使用 <'textarea'><'\textarea'> 标签引起的吗?

湾。如果是这样,我如何在网站上发布我的 xml 代码?

C。如果没有,如何解决这个 ParseError?

标签: pythonxmlxml-parsing

解决方案


你会得到 HTML 文档。
在 HTML 中,有 <textarea>一个包含 XML 文档的内容。
下面的代码指向 XML 文档并对其进行解析。

import requests
import xml.etree.ElementTree as ET

r = requests.get('https://imanparyudi.000webhostapp.com/gambar.html')
if r.status_code == 200:
    start = r.text.find('<?xml')
    end = r.text.find('</textarea>')
    root = ET.fromstring(r.text[start:end])
    print(root)

推荐阅读