首页 > 解决方案 > 如何在nodejs中解析PDF

问题描述

我正在尝试解析pdf并根据文本格式/装饰对信息进行分类。你建议我怎么做?例如,我有一个重复结构的pdf: S.No. BOLD+UNDERLINED TITLE para

如何根据文本修饰将此数据分类为对象数组:

[ 
  { sno: "", title: "", desc: "" }, 
  ... 
]

标签: pdf2json

解决方案


我浏览了pdf2json的文档,并认为pdfData.formImage.Pages[pageNumber].Texts[wordNumber].R[0]在解析 pdf 后我可能必须使用 object 来获取我需要的值。

上述对象的属性TS是一个数组,at的值TS[2]对应于文本是bold(value = 1)还是不是(value = 0)。我找不到与underline文本装饰相关的数据的任何详细信息。

我还需要按如下方式初始化解析器 let pdfParser = new PDFParser(null, 1)
检查以获取更多详细信息。


推荐阅读