首页 > 解决方案 > 要求字母连词的 unicode

问题描述

我在解析 PDF 文档时偶尔会遇到一些特殊字符。它们实际上是两个英文字母,例如“fi”、“tt”或“ti”,但在视觉上它们看起来像是连词,实际上它们作为一个字符存在于 PDF 字符串中。

我检查了这些字符的“ToUnicode”,但我刚刚发现“ToUnicode”CMap 表被破坏,因此我找不到它们的 unicode。

例如,将像附加图片一样<012E> Tj打印。fi但是在其对应的 Font 的 ToUnicode CMap:<012E> <0001>中,这是没有意义的。

有人可以让我知道他们的 unicode 代码点吗?可以从相应的字体程序中找到吗?

感谢您的任何建议。

fi在此处输入图像描述

tt在此处输入图像描述

ti在此处输入图像描述

标签: pdfunicode

解决方案



推荐阅读