首页 > 解决方案 > 显示粘贴内容表单波斯语pdf的问题

问题描述

我有一个波斯语的 pdf 代码,但是当我尝试复制内容时,内容将显示为无意义的字母(数字除外)示例:我从我的 pdf 中复制了一些文本并将其粘贴到此处:371960012100240806356111 => '371960012100240806356111' 数字已粘贴正确的


但是当我尝试复制名称 گلچینفر 之类的内容时,它会被粘贴为 £3⁄4ÉuÅ{

我该如何解决这个问题?我想用 python 提取内容,它可以工作,但我无法正确显示名称!

pdf示例文件在这里:https ://ufile.io/qibejys1

谢谢

标签: pythonpdftextunicodeutf-8

解决方案


您可能想尝试以下步骤:

  1. 安装 Tesseract 4 或更高版本,查看官方教程
  2. 获取波斯特定模型并将其复制到本地 tessdata 文件夹
  3. 将有问题的 PDF 页面(先分页,看看pdftk工具)转换为 tiff(在 ubuntu 中,使用convert命令)
  4. 运行类似的东西tesseract -l fas image.tiff text.txt
  5. 使用选项调整您的命令,例如psm

推荐阅读