首页 > 解决方案 > 有没有办法使用 iText7 识别 PDF 中的缩进文本

问题描述

我正在使用 itext7 解析 PDF 并从中提取文本。简而言之,我打电话给

var rawText = new List<string>();
for (int i = 0 i <= (LastPage > 0 ? LastPage : doc.GetNumberOfPages()); i++)
{
    PdfPage page = doc.GetPage(i);
    rawText.Add(PdfTextExtractor.GetTextFromPage(page));
}

从 PDF 中获取所有原始文本,然后处理和格式化文本以创建可读的内容。但是,使用这种方法,我无法识别原始 PDF 中缩进的段落的开头,如下所示

   A beginning of a paragraph is indented like
this, but additional lines are not. 
   Further paragraphs within a page 
are all identified by indents.

有没有办法识别文本中的缩进以及段落的开始位置?使用上面的方法,缩进被简单地忽略了。

标签: c#pdfitextitext7

解决方案


推荐阅读