pdf - 要求字母连词的 unicode
问题描述
我在解析 PDF 文档时偶尔会遇到一些特殊字符。它们实际上是两个英文字母,例如“fi”、“tt”或“ti”,但在视觉上它们看起来像是连词,实际上它们作为一个字符存在于 PDF 字符串中。
我检查了这些字符的“ToUnicode”,但我刚刚发现“ToUnicode”CMap 表被破坏,因此我找不到它们的 unicode。
例如,将像附加图片一样<012E> Tj
打印。fi
但是在其对应的 Font 的 ToUnicode CMap:<012E> <0001>
中,这是没有意义的。
有人可以让我知道他们的 unicode 代码点吗?可以从相应的字体程序中找到吗?
感谢您的任何建议。
解决方案
推荐阅读
- python - 为基本的 Flask 应用程序添加背景图像?
- google-data-studio - 谷歌数据洞察过滤器控制大小写敏感
- python - 当我用 fig.canvas.draw 做 imshow 时,为什么边距这么大?
- monaco-editor - 摩纳哥编辑器:更改默认字形边距悬停工具提示样式
- php - php woocomerce 购物车除法和乘法
- arrays - 用两个条件计算 IFS
- servicestack - 如何测试具有重定向的端点?
- f# - F# 制作不必要的 DateTimeOffset 副本
- kubernetes - 使用 iptables 阻止来自集群外部的所有 Kubernetes 节点端口通信
- shared-libraries - 链接静态库 Vs。Linux 中的共享库