c# - 有没有办法使用 iText7 识别 PDF 中的缩进文本
问题描述
我正在使用 itext7 解析 PDF 并从中提取文本。简而言之,我打电话给
var rawText = new List<string>();
for (int i = 0 i <= (LastPage > 0 ? LastPage : doc.GetNumberOfPages()); i++)
{
PdfPage page = doc.GetPage(i);
rawText.Add(PdfTextExtractor.GetTextFromPage(page));
}
从 PDF 中获取所有原始文本,然后处理和格式化文本以创建可读的内容。但是,使用这种方法,我无法识别原始 PDF 中缩进的段落的开头,如下所示
A beginning of a paragraph is indented like
this, but additional lines are not.
Further paragraphs within a page
are all identified by indents.
有没有办法识别文本中的缩进以及段落的开始位置?使用上面的方法,缩进被简单地忽略了。
解决方案
推荐阅读
- html - 如何不重叠表和行?
- azure - Azure 函数队列触发器的 Azure 存储模拟器连接字符串
- html - 如何将子列表项(如示例图像)居中?
- vb.net - 从文本框中添加数组值并显示在标签中
- android - 使用 java 代码为 android API 6 和更少的启用-禁用 Wifi 热点和网络共享
- php - Laravel eloquent 属于在列中以逗号分隔的多个 id
- android - 如何阅读 OpenSSL 源代码
- java - 什么是基于 json 路径删除/修改 json 对象的 java 库,或者如何解决 JsonPath 中的以下问题?
- python - 如何使用matplotlib创建具有不同长度的多个数组的直方图,y轴上的百分比
- r - Plotting Gaussian over histogram with ggplot2 and getting "Error length(rows) == 1 is not TRUE"