首页 > 解决方案 > 在 tika 中改变语言

问题描述

是否可以更改 tika 的语言(默认检测)?

我正在尝试在泰米尔语中使用 pdf 文件。(语言代码“ta”)。但 tika 将其检测为“th”(泰语)。虽然大多数字符都被很好地识别,但它并没有背叛几个字符。

请参见下面的示例,其中一些“o”出现在文本之间。

ஓவச-அக்அக்பாய்வதால்எழுகின்றஓகெயும்; வவவலச்சங்கின் -ஓவச -நீர்க்நீர்க்ெங்குைளிடமிருந்து</p>

from tika import language
print(language.from_file(u'pdf/KambaRamayanam1.pdf' ))

结果是'th'。预期是“ta”

标签: pythonnlpapache-tikatamil

解决方案


Tika 可以在 ocr 模式(适用于扫描的 pdf)或 no_ocr 模式下处理 pdf - tika 将请求发送到 tesseract

  1. 确保您的 tika 在代码中使用 ocr

    PDFParserConfig::setExtractInlineImages(true) //很重要 PDFParserConfig::setOcrStrategy(PDFParserConfig.OCR_STRATEGY.OCR_ONLY)

或在 tika 服务器中使用标头:

X-Tika-PDFextractInlineImages: true, X-Tika-PDFocrStrategy: OCR_ONLY
  1. 比您的 tika 使用 tesseract 并且您可以更改 tesseract 配置:https ://tika.apache.org/1.24/api/org/apache/tika/parser/ocr/TesseractOCRConfig.html

为了全面了解我强烈建议查看我的 java 项目https://github.com/marekkapowicki/nlp和博客文章:https ://medium.com/@masreis/text-extraction-and-ocr- with-apache-tika-302464895e5f


推荐阅读