首页 > 解决方案 > getPageNthWord 中的空字符串

问题描述

我有一个 PDF 文档,用 Adob​​e Acrobat Pro 打开。在我执行的 Javascript 控制台上

getPageNumWords(0)

并得到 570 作为输出;一个数字,正如预期的那样。

然后我执行

getPageNthWord(0,0,true)

但是返回值是一个空字符串,而它应该是一些字符串。每个单词都一样(我做了一个 for 循环来测试)

这通常工作得很好,多年来我有一些简单的脚本可以根据文本上的关键词执行一些操作(移动、插入、删除、...、页面)。

任何想法为什么这在某些情况下不起作用?请注意,该文件有文本,我可以用鼠标选择文本,复制并粘贴到其他地方。

主要是,任何想法如何解决或解决这个问题?我尝试(重新)保存文件,但没有成功,也许强制进行一些优化......?

编辑:经过进一步尝试,我注意到有一些页面(最后 12 个) getPageNthWord 可以按预期工作。查看 PDF 的内部结构,我注意到 /Catalog 有一个大约 12 页的“/PageLabels << /Nums...”。我会尝试进一步检查这个结构,现在我打印了这该死的东西并用手把它整理出来......

标签: javascriptpdfadobe

解决方案


推荐阅读