java - 带有德语字母的 Html 到 Pdf
问题描述
我正在使用openhtmltopdf将 html 转换为 pdf。目前,如果 html 包含德语字符,例如 ä、ö、ü,我会遇到异常。
PdfRendererBuilder builder = new PdfRendererBuilder();
builder.useFastMode();
builder.withHtmlContent(html,"file://localhost/");
builder.toStream(out);
builder.run();
org.xml.sax.SAXParseException;行号:17;列号:31;实体“auml”被引用,但未声明。
这是我的html:
<html>
<head>
<meta charset="UTF-8" />
</head>
<body>
käse
</body>
</html>
导出的单词是“käse”(奶酪)。
更新
我尝试过使用实体解析器,以这种方式:
DocumentBuilderFactory factory=DocumentBuilderFactory.newInstance();
DocumentBuilder builder=null;
try{
builder=factory.newDocumentBuilder();
ByteArrayInputStream input=new ByteArrayInputStream(html.getBytes("UTF-8"));
builder.setEntityResolver(FSEntityResolver.instance());
org.w3c.dom.Document doc=builder.parse(input);
}catch(Exception e){
logger.error(e.getMessage(),e);
}
但我仍然在“解析”中遇到同样的异常。
解决方案
看起来您需要提供DTD或将实体名称auml
替换为其相应的十六进制或十进制值,即ä
或ä
分别。见A.2。实体集和HTML 4 实体名称。
html 内容如下所示:
<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE html [
<!ENTITY auml "ä">
]>
<html>
<head>
</head>
<body>
käse
</body>
</html>
或者,您可以遍历 html 字符串并将实体名称替换为其相应的 dec/hex 值,这应该没问题,或者在将 DTD 传递给 pdf 构建器之前将其添加到您的 html 字符串。
更新
您可能想尝试一下jsoup库。它解析并为您提供一个org.w3c.dom.Document
,例如
Document jsoupDoc = Jsoup.parse(html); // org.jsoup.nodes.Document
W3CDom w3cDom = new W3CDom(); // org.jsoup.helper.W3CDom
org.w3c.dom.Document w3cDoc = w3cDom.fromJsoup(jsoupDoc);
然后你可以w3cDoc
像这样传递给 pdf builder
PdfRendererBuilder builder = new PdfRendererBuilder();
builder.withW3cDocument(w3cDoc, "file://localhost/");
推荐阅读
- python - 在 Excel 中重现 Mann-Whitney U
- c - 将获取 arry 字符的函数转换为获取 char * 的函数
- mysql - 从订单商品中提取 SKU 的 SQL (Woocommerce - Wordpress)
- android - 使用 kotlin 构建 android 应用程序时抛出异常“后端(JVM)内部错误:生成错误的字节码”
- ios - 突然间无法为 Ios 构建 Ionic Cordova
- pytorch - 如何将 torch.norm 转换为余弦距离
- tensorflow - Gstreamer:如何读取元素属性内的结构
- postgresql - 将 oracle Reference 触发器转换为 postgreSQL 触发器
- video - 当从 withUIImagePickerController 或 PHPickerViewController 使用的照片库中选择视频时,与 AirDrop 共享的 HDR 视频的 mediaURL 为零
- rust - 如何在第一个 None 值上停止无限迭代器?