首页 > 解决方案 > 理论上从.pdf文件中提取文本

问题描述

我知道有数千种方法可以从 .pdf 文件中提取文本 - 有在线转换器、库、包,并且可以使用任何编程语言来完成。为了我的论文的需要,我正在寻找解释它如何工作的来源 - 我发现一些演示文稿表明文本基本上是括号之间的任何内容,但是当我用一些记事本打开 .pdf 文件时,我没有找到它(实际上没有真实的话)。是否有任何描述.pdf 文件如何工作的文章?使用什么语言?它的层次是什么?我们可以从头开始在一些记事本中创建一个 .pdf 文件吗- 然后将其保存为 .pdf 并正确查看?这样的 pdf_to_text 工具(例如在 R 甚至 JavaScript 中)是如何从内部工作的?我将非常感谢任何答案,帮助,链接,解释!

标签: pdftext-mining

解决方案


推荐阅读