c# - ItextSharp 仅从我的 pdf 中检索标题文本
问题描述
我正在尝试使用 ItextSharp 4.2.0(由于 GPL 许可证)从某个来源读取 pdf,但我只是从我的 pdf 中检索标题文本。
我真的是 PDF 结构的新手,但我怀疑这是由于内部的编码流:当我在文本编辑器中打开我的 pdf 时,我看到了这些标记:
<</Filter/FlateDecode/I 94/Length 84/S 55>>stream
[Gibberish text]
endstream
endobj
<</Filter/FlateDecode/Length 2592/N 3>>stream
endstream
endobj
我的代码就这么简单:
PdfReader reader = new PdfReader(tb_filename.Text);
for (int page = 1; page <= reader.NumberOfPages; page++)
{
var content = reader.GetPageContent(page);
//do stuff depending on content
}
我很确定我要检索的数据是实际文本,因为我可以将它从 adobe 阅读器复制/粘贴到记事本。
我在这里能错过什么?
解决方案
推荐阅读
- curl - PHP cURL 通过本地服务器上的 url 获取视频
- javascript - 如何将数据从控制台日志传输到 json 文件?
- flutter - 在 PWA 颤振中创建自定义颜色
- python-3.x - 字典列表上的二进制搜索python
- user-interface - 界面路径。VB.net? 如果条件
- json - 努力将 JSON 导入到 excel 中,其中列包含记录和列表
- r - R软件错误信息的JM(joint model)包
- colors - 当我给它一个恒定值时,为什么 alpha 值会发生变化?
- android - 识别具有相同电子邮件地址的两个用户
- javascript - 云函数无法读取未定义的属性