c++ - 在 Windows 10 上安装适用于 C++ 的 tesseract
问题描述
我在安装 tesseract 以在 Windows 10 上使用 C++ 进行开发时遇到问题。
任何人都可以提供指南以获取:
1. Leptonica(tesseract 需要)lib 并包含
2. Tesseract lib 并包含
3. 将两者链接到项目(例如 Visual Studio)
,以便示例来自https://github.com/tesseract- ocr/tesseract/wiki/APIExample作品:
#include <tesseract/baseapi.h>
#include <leptonica/allheaders.h>
int main()
{
char *outText;
tesseract::TessBaseAPI *api = new tesseract::TessBaseAPI();
// Initialize tesseract-ocr with English, without specifying tessdata path
if (api->Init(NULL, "eng")) {
fprintf(stderr, "Could not initialize tesseract.\n");
exit(1);
}
// Open input image with leptonica library
Pix *image = pixRead("/usr/src/tesseract/testing/phototest.tif");
api->SetImage(image);
// Get OCR result
outText = api->GetUTF8Text();
printf("OCR output:\n%s", outText);
// Destroy used object and release memory
api->End();
delete[] outText;
pixDestroy(&image);
return 0;
}
解决方案
几天来,我一直在尝试将 tesseract 库链接到我在 Visual Studio 2019 中的 c++ 项目,我终于设法做到了。我发现的任何线程甚至官方 tesseract 文档都没有完整的操作说明列表。
我会列出我所做的,希望它会帮助某人。我不假装它是这样做的最佳方式。
tesseract 官方文档中有基本提示。转到“Windows”部分。我确实安装了
sw
,cppan
但我想没有必要。这里主要是安装vcpkg。它需要Git,所以我安装了它。然后:> cd c:tools
(我安装在c:\tools
,你可以选择任何目录)> git clone https://github.com/microsoft/vcpkg
> .\vcpkg\bootstrap-vcpkg.bat
> .\vcpkg\vcpkg install tesseract:x64-windows-static
(我用的是x64版本)> .\vcpkg\vcpkg integrate install
他们说,此时一切都应该正常工作。应包含标头,应链接库。但没有一个对我有用。
将项目配置更改为 Release x64(或 Release x86,如果您安装了 x86 tesseract)。
要包含标题:转到项目属性 -> C/C++ -> 常规。将其他包含目录设置为
C:\tools\vcpkg\installed\x64-windows-static\include
(或安装 vcpkg 的任何位置)链接库:项目属性 -> 链接器 -> 常规。将附加库目录设置为
C:\tools\vcpkg\installed\x64-windows-static\lib
项目属性 -> C/C++ -> 代码生成。将运行时库设置为
Multi-threaded(/MT)
. 否则我会收到诸如“运行时不匹配静态与 DLL”之类的错误Tesseract lib 无法链接到其依赖项,因此我将已安装的所有库添加到
C:\tools\vcpkg\installed\x64-windows-static\lib
. 项目属性 -> 链接器 -> 输入。我将附加依赖项设置为archive.lib;bz2.lib;charset.lib;gif.lib;iconv.lib;jpeg.lib;leptonica-1.80.0.lib;libcrypto.lib;libpng16.lib;libssl.lib;libwebpmux.lib;libxml2.lib;lz4.lib;lzma.lib;lzo2.lib;openjp2.lib;tesseract41.lib;tiff.lib;tiffxx.lib;turbojpeg.lib;webp.lib;webpdecoder.lib;webpdemux.lib;xxhash.lib;zlib.lib;zstd_static.lib;%(AdditionalDependencies)
之后,它终于编译并启动了。
但是……api->Init
回来了-1
。要使用 tesseract,您应该拥有 tessdata 目录,其中包含您需要的语言的 .traineddata 文件。
下载苔丝数据。我从官方文档中得到它。顺便说一句,对于我的目的,tessdata_fast 比 tessdata_best 工作得更好:) 所以我下载了单个“eng”文件并将其保存为
C:\tools\TesseractData\tessdata\eng.traineddata
.然后我添加
TESSDATA_PREFIX
了带有 value的环境变量C:\tools\TesseractData\tessdata
。我还添加C:\tools\TesseractData
了路径变量(以防万一)
毕竟,它终于为我工作了。
推荐阅读
- python - SWIG 将地图矢量转换为 python 字典列表
- javascript - print.js 密码保护 pdf
- unit-testing - 如何在 Vue 快照测试中捕获对象道具
- ios - UIPickerView 委托在以编程方式创建时从不调用
- perl - IO::Socket::SSL:SSL 连接尝试失败
- reactjs - 动态渲染material-ui卡 - 连续
- reactjs - 为什么当我分享到推特时,我看不到任何卡片上的图像?这是我拥有的元标签
- python - 熊猫将年份列转换为日期列
- java - 将对象投射到列表
- xslt - XPath:连接节点内的文本及其直接跟随的兄弟