首页 > 解决方案 > 为什么我在通过 Tesseract 获取文本时会得到额外的字符(箭头符号)?

问题描述

每当我获取任何语言的文本时,输出都会有这个额外的字符(箭头符号),它在图像中不存在。我想了解它为什么存在,以及如何在输出中避免这些额外的字符。

正方体 4.0 的输出

标签: tesseract

解决方案


这很可能是隐式页面分隔符\f,记事本显示为该箭头。有关该主题的一些详细信息,请参阅:Tesseract 4.0.0 在 txt 输出中使用了哪些页面分隔符?

您可以尝试添加-c page_separator=""到您的配置中。你不应该在你的输出中看到那个符号。请注意,分页符也被完全禁用。


推荐阅读