pdf - 理论上从.pdf文件中提取文本
问题描述
我知道有数千种方法可以从 .pdf 文件中提取文本 - 有在线转换器、库、包,并且可以使用任何编程语言来完成。为了我的论文的需要,我正在寻找解释它如何工作的来源 - 我发现一些演示文稿表明文本基本上是括号之间的任何内容,但是当我用一些记事本打开 .pdf 文件时,我没有找到它(实际上没有真实的话)。是否有任何描述.pdf 文件如何工作的文章?使用什么语言?它的层次是什么?我们可以从头开始在一些记事本中创建一个 .pdf 文件吗- 然后将其保存为 .pdf 并正确查看?这样的 pdf_to_text 工具(例如在 R 甚至 JavaScript 中)是如何从内部工作的?我将非常感谢任何答案,帮助,链接,解释!
解决方案
推荐阅读
- javascript - 如何使用 V8 Google Apps Script IDE 获得正确的格式
- javascript - 有条件地创建字段对象的简单方法?
- wpf - x:Bind 的替代品适用于 UNO 平台中的 UWP,但不适用于 WASM、Droid 等
- html - 彼此下方的引导卡
- java - GridPane add() 未设置列跨度
- javascript - 反应:以编程方式更改选中状态时在复选框输入上触发 onChange?
- python - 是否可以限制 Python 中条件列表理解的长度?
- javascript - Javascript - 根据数组中的特定数据将数组转换为对象
- python - 尝试将 2d 张量乘以 1d 张量,从 2d 张量中的特定列开始
- python - 为什么 collections.Counter 构建频率图所花费的时间少于 for 循环创建的简单 dict?