首页 > 解决方案 > 如何使用 Java 解析 docx 文档中的部分 html?

问题描述

故事有点复杂,但归结为:

当前的工作代码无法正确地将文档打印到 docx - 它忽略表格,而是当前将每个新单元格写为新段落。

在将生成的 *.docx 文件发送给用户并对其进行修改之前,我可以访问它。这几乎是我仅有的一个钩子。

我设法在文档中嵌入了 html 而不是包含我的表格的内容: pic. 文档里面的html

这个 html 代码几乎是一个字符串。示例仅包含一个表格,但可以有多个表格,由不同格式的文本段落、水平规则分割<hr>

我有哪些选择?有什么图书馆可以研究吗?

附言。文档中的 Html 代码:

<table cellpadding="0" cellspacing="0" border="1" width="100%">
  <tbody><tr>
    <td height="20"><font size="4">n/a</font></td>
    <td height="20"><font size="4">Column1</font></td>
    <td height="20"><font size="4">Column2</font></td>
    <td height="20"><font size="4">Column3</font></td>
  </tr><tr>
    <td height="20"><font size="4">Row1</font></td>
    <td height="20"><font size="4">Text123</font></td>
    <td height="20">Text123 </td><td height="20">Text123 </td>
  </tr><tr>
    <td height="20"><font size="4">Row2</font></td>
    <td height="20"><span style="font-size: large;">Text123</span></td>
    <td height="20">Text123 </td>
    <td height="20"><span style="font-size: large;">Text123</span></td>
  </tr></tbody>
</table>

标签: javahtmldocx

解决方案


推荐阅读