首页 > 解决方案 > JavaScript 获取 PDF 文件中特定字符串的坐标

问题描述

是否有 JavaScript 解决方案允许我获取 PDF 文件中特定字符串的 x 和 y 坐标以及宽度和高度?PDF.JS 可以从 PDF 文件中提取文本块并给出 x 和 y 坐标以及这些块的宽度和高度。但是我对这些文本块如何组合在一起没有影响(从单个字符到多个单词的较大部分),我不知道如何处理这样一个块的各个部分的坐标。

这意味着如果 PDF 文件包含“Hello world!”,我希望能够知道“Hello”结束位置或“world”开始位置的 x 坐标。

有没有比通过给定字体的单个字符的宽度来计算这个更舒服的方法?在 Java 中,PDFBox 允许这样做(请参阅How to search some specific string or a word and there coordinates from a pdf document in java),但我没有在 JavaScript 中找到任何可比的东西。

我尝试这样做的原因是我想在 PDF 文件中搜索特定文本并找出其坐标以便对其进行处理,例如在其周围绘制一个矩形以突出显示它。任何有关如何实现这一目标的建议都将受到欢迎。谢谢!

标签: javascriptpdfjspdf

解决方案


一种方法是您可以使用 window.getSelection() 获取所选文本的坐标,并使用 toString() 将其转换为文本格式。

ng2-pdf-viewer:获取高亮文本的坐标

请随时发表评论,因为这是我的第一篇文章。


推荐阅读