tesseract - 为什么我在通过 Tesseract 获取文本时会得到额外的字符(箭头符号)?
解决方案
这很可能是隐式页面分隔符\f
,记事本显示为该箭头。有关该主题的一些详细信息,请参阅:Tesseract 4.0.0 在 txt 输出中使用了哪些页面分隔符?
您可以尝试添加-c page_separator=""
到您的配置中。你不应该在你的输出中看到那个符号。请注意,分页符也被完全禁用。
推荐阅读
- vue.js - 在 vue 中从子级向父级添加组件
- grafana - 如何将主页仪表板放在 Grafana 仪表板列表的顶部?
- sql-server-2008 - FireDAC、阵列 DML、SQL Server 和 IDENTITY_INSERT
- assembly - sys_write 输出额外字符
- javascript - 我想:只通过一个扬声器播放 .mp3
- bootstrap-4 - Groupby:多选单选按钮
- apache-spark - 为什么我的 IDE 对 Spark SQL 2.4.4 依赖项显示“未知工件。未解析或索引”?
- python - 我想将此代码转换为完整的句子
- python - PyQt5 是否可用于 Python 3.8?我无法安装 pyqt5-tools
- javascript - 如何使用 React 解密 Laravel cookie