首页 > 解决方案 > iText - 获取符号组合的位置

问题描述

我找不到如何使用 iText API 获取 PDF 文档中特定符号组合(例如 +< )的位置 (x,y) 的示例。我可以找到带有此类符号的行或块的位置。但据我所知,即使这些符号在文档中作为单独的单词,也不能保证它将是单独的块。

标签: .netitext

解决方案


您要查找的课程是RegexBasedLocationExtractionStrategy.

您可以使用String表示正则表达式的对象来构造它,或者直接将正则表达式提供给它。

PdfPage然后使用 a将其应用于a PdfCanvasProcessor,然后调用getResultantLocations

PdfDocument pdfDoc = new PdfDocument(new PdfReader(SRC));

RegexBasedLocationExtractionStrategy extractionStrategy = new RegexBasedLocationExtractionStrategy(@"foobar");

IList<IPdfTextLocation> locationList = new List<IPdfTextLocation>();

PdfCanvasProcessor parser = new PdfCanvasProcessor(extractionStrategy);
parser.ProcessPageContent(pdfDoc.GetFirstPage());

extractionStrategy.GetResultantLocations(); // do something with them

推荐阅读