首页 > 解决方案 > 为 Tesseract OCR 制作训练数据时的 font_properties 是什么?

问题描述

我正在尝试创建一个经过训练的数据文件来训练 tesseract 如何读取我将提供给它的图像,但我不明白在 font_properties 步骤中要包含什么。我正在关注这个例子和这篇文章的答案。这两个示例都仅将 0 和 1 作为 font_properties 的值,而我的训练数据文件用于特定的字母数字值。您能否在我发送给您的第二个链接中告诉我更多关于步骤 3 中包含的内容。它可以是任何东西,它只是对字体的简单描述,还是它实际上很重要并且需要准确。

标签: javascripttesseract

解决方案


font_properties 文件的每一行格式如下: fontname italic bold fixed serif fraktur 其中 fontname 是一个命名字体的字符串(不允许有空格!),并且 italic、bold、fixed、serif 和 fraktur 都是简单的 0 或 1 标志,表示字体是否具有命名属性。

例子:

时间斜体 1 0 0 1 0

https://tesseract-ocr.github.io/tessdoc/tess3/Training-Tesseract-3.03%E2%80%933.05.html#set_unicharset_properties


推荐阅读