首页 > 解决方案 > JAXB 阻塞 UTF-16 XML

问题描述

我的项目使用 JAXB 从各种来源解析 XML。这适用于大多数来源,但我无法解析来自特定来源的文档。我能找到的唯一区别是,有问题的文档报告其编码为 UTF-16,而据我所知,其他文档似乎是 UTF-8。

这是代码:

InputStream inputStream = new FileInputStream(inputFile);
DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
dbf.setNamespaceAware(true);
DocumentBuilder db = dbf.newDocumentBuilder();
Document doc = db.parse(inputStream);

这会引发以下异常:

[Fatal Error] :1:40: Content is not allowed in prolog.
org.xml.sax.SAXParseException; lineNumber: 1; columnNumber: 40; Content is not allowed in prolog.
    at com.sun.org.apache.xerces.internal.parsers.DOMParser.parse(DOMParser.java:257)
    at com.sun.org.apache.xerces.internal.jaxp.DocumentBuilderImpl.parse(DocumentBuilderImpl.java:339)
    at javax.xml.parsers.DocumentBuilder.parse(DocumentBuilder.java:121)
    at ... (my code)

违规文件以

<?xml version="1.0" encoding="UTF-16"?>

后跟根元素的开始标签。我用十六进制编辑器检查了文件;在开始标签之前没有其他字符(甚至没有 BOM 或任何非打印字符)。

如果我将encoding属性更改为UTF-8,代码会运行超过该点(尽管它会进一步抛出一个不相关的异常)。

JAXB 与 UTF-16 不兼容吗?或者还有什么问题?

标签: jaxbutf

解决方案


在文档上运行xmlstarlet fo会产生以下错误:

/path/to/document.xml:1.38: Document labelled UTF-16 but has UTF-8 content

总之,org.xml.sax.SAXParseException错误消息Content is not allowed in prolog相当不具体,在某些情况下具有误导性

虽然通常它表示在根元素之前遇到了非法的额外字符(包括非打印字符),但它也可能表示完全不同的东西——例如 XML 序言指定的编码与实际编码不匹配。


推荐阅读