首页 > 解决方案 > ItextSharp 仅从我的 pdf 中检索标题文本

问题描述

我正在尝试使用 ItextSharp 4.2.0(由于 GPL 许可证)从某个来源读取 pdf,但我只是从我的 pdf 中检索标题文本。

我真的是 PDF 结构的新手,但我怀疑这是由于内部的编码流:当我在文本编辑器中打开我的 pdf 时,我看到了这些标记:

<</Filter/FlateDecode/I 94/Length 84/S 55>>stream
[Gibberish text]
endstream
endobj
<</Filter/FlateDecode/Length 2592/N 3>>stream
endstream
endobj

我的代码就这么简单:

PdfReader reader = new PdfReader(tb_filename.Text);
for (int page = 1; page <= reader.NumberOfPages; page++)
{
   var content = reader.GetPageContent(page);
   //do stuff depending on content
}

我很确定我要检索的数据是实际文本,因为我可以将它从 adobe 阅读器复制/粘贴到记事本。

我在这里能错过什么?

标签: c#.netitext

解决方案


推荐阅读