首页 > 解决方案 > IronPdf 中的多字节字符读取问题

问题描述

我正在尝试IronPDF。我想将 PDF 元数据插入到使用 IronPDF 读取的数据库中。但是,IronPDF 无法读取元数据中的某些“ı”字符。在这些字符的位置留有空格。这是我的代码示例:

var md = PdfDocument.FromFile("___PATH OF PDF FILE___");
var article_title = md.MetaData.Title;

当我将粘贴字符串复制到 Notepad++ 时,它会给出如下结果:

在此处输入图像描述

这是应用程序视图的屏幕截图:

在此处输入图像描述

有没有办法解决这个问题或者这是 IronPDF 的一个错误?如果一切顺利,我当然会考虑购买。但当然,如果第一次尝试失败,请继续使用 iTextSharp。

编辑:首先,我为 Windows 道歉,这让我感到惊讶。我整天都在努力建立一个新系统,不幸的是它仍然没有安装视觉工作室等。我在下面添加了一个我遇到问题的文件,IronPDF 版本显示为 2019.7.0.0。

PDF 文件:https ://yadi.sk/d/HwP9JWRWTzMlSA

标签: multibyte-charactersironpdf

解决方案


首先,由于您没有向我们提供可使用的示例 PDF;我用谷歌搜索了一些包含土耳其字符元数据的土耳其 PDF 文档。这是我想出的文件:链接 在此处输入图像描述 正如您在上面看到的作者元数据字段具有ı土耳其字符。

然后我创建了一个dotnet fiddle以使用 IronPDF 测试此文件(使用最新的可用版本 - 因为您没有指定任何版本): 使用 IronPDF 的示例

此示例的输出ElifCakroglu在复制到 Notepad++ 时显示完全相同的症状: 在此处输入图像描述

使用编码无助于解决此问题。因此,我创建了另一个 dotnet fiddle 来测试您的替代解决方案,即 iTextSharp:使用 iTextSharp 的示例

这次一切正常:ElifCakıroglu

注意:我还尝试创建 Word 2016 文档并将其保存为 PDF,然后将该文件与上述示例一起使用,但由于某种原因,它们都不起作用(不接受为有效的 PDF)。之后我尝试了在线 PDF 文档验证器,但文件很好。然后我使用在线转换器以默认设置更改 PDF 版本,并将输出 PDF 与两个样本一起使用,令人惊讶的是它们都正常工作

我的结论是,iTextSharp 与包含土耳其字符元数据的两个文档一致,而 IronPDF 在 50% 的时间内正常工作。


推荐阅读