python - 在 tika 中改变语言
问题描述
是否可以更改 tika 的语言(默认检测)?
我正在尝试在泰米尔语中使用 pdf 文件。(语言代码“ta”)。但 tika 将其检测为“th”(泰语)。虽然大多数字符都被很好地识别,但它并没有背叛几个字符。
请参见下面的示例,其中一些“o”出现在文本之间。
ஓவச-அக்அக்பாய்வதால்எழுகின்றஓகெயும்; வவவலச்சங்கின் -ஓவச -நீர்க்நீர்க்ெங்குைளிடமிருந்து</p>
from tika import language
print(language.from_file(u'pdf/KambaRamayanam1.pdf' ))
结果是'th'。预期是“ta”
解决方案
Tika 可以在 ocr 模式(适用于扫描的 pdf)或 no_ocr 模式下处理 pdf - tika 将请求发送到 tesseract
确保您的 tika 在代码中使用 ocr
PDFParserConfig::setExtractInlineImages(true) //很重要 PDFParserConfig::setOcrStrategy(PDFParserConfig.OCR_STRATEGY.OCR_ONLY)
或在 tika 服务器中使用标头:
X-Tika-PDFextractInlineImages: true, X-Tika-PDFocrStrategy: OCR_ONLY
- 比您的 tika 使用 tesseract 并且您可以更改 tesseract 配置:https ://tika.apache.org/1.24/api/org/apache/tika/parser/ocr/TesseractOCRConfig.html
为了全面了解我强烈建议查看我的 java 项目https://github.com/marekkapowicki/nlp和博客文章:https ://medium.com/@masreis/text-extraction-and-ocr- with-apache-tika-302464895e5f
推荐阅读
- php - 在订单页面的快速视图中显示来自 woocommerce 结帐的自定义字段
- python - Python HTTP 服务器模块目录位置 psycopg2
- c# - 如何在C#中获取下一个特定日期的日期
- excel - 通过 Excel VBA 在 Powerpoint 中删除形状
- c# - 如何为 C# 类分配内存?
- python - 如何在调整窗口大小时使按钮移动?(PyQt4)
- python - 如何使用张量板监控 keras 中的梯度消失和爆炸?
- html - 封面视频背景无法正常工作
- python - 使用 re.sub 时,Python 正则表达式会忽略标点符号
- javascript - javascript中的水果忍者类型游戏