跳到内容。

Tesseract 用户手册

本用户手册适用于 Tesseract 版本 5.x。对于版本 4.x.x3.05.02 和更早版本,请参阅 旧版本文档

简介

Tesseract 是一个开源 文本识别 (OCR) 引擎,在 Apache 2.0 许可证 下提供。

Tesseract 可以通过 命令行 直接使用,或者(对于程序员)通过使用 API 从图像中提取打印文本。它支持 多种语言。Tesseract 没有内置的 GUI,但可以在 3rdParty 页面中找到一些可用的 GUI。Tesseract 的外部工具、包装器和训练项目在 AddOns 下列出。

Tesseract 可以根据 Apache 许可证 2.0 的条款在您自己的项目中使用。它具有功能齐全的 API,并且可以编译为各种目标,包括 Android 和 iPhone。请参阅 3rdPartyAddOns 页面,了解使用它的示例。

如果您有任何问题,请先阅读 文档,尤其是 **常见问题解答 (FAQ)**,看看您的问题是否已在其中解决。如果没有,请搜索 问题列表Tesseract 用户论坛,如果您仍然没有找到您需要的内容,请在 Tesseract 用户论坛 Google 群组 中提问。

Tesseract 是自由软件,如果您想参与并提供帮助,请这样做!如果您发现了一个错误并自己修复了它,最好的做法是将补丁附加到您在 问题列表 中的错误报告中。

版本和变更日志

带 LSTM 的 Tesseract

Tesseract **4.0** 添加了一个基于 LSTM 神经网络的新 OCR 引擎。它在 x86/Linux 上运行良好,并为 100 多种语言和 35 种以上文字 提供了官方语言模型数据。请参阅 4.0x-Changelog,了解更多详细信息。

5.x.x

源代码

Tesseract **5.x.x** 源代码可以在 存储库main 分支中找到。 main 分支正在使用 5.0.0 语义化版本控制,因为 C++ 代码现代化导致了与 4.x 版本的 API 不兼容。

二进制文件

二进制文件可从以下位置获取

训练数据文件

有关不同类型模型的详细信息,请参阅 数据文件

版本 4.00 的模型文件可从 标记为 4.00 的 tessdata 获取。它包含 2016 年 11 月的模型。各个语言文件链接可从以下链接获取。

版本 4.0.0 及更高版本的模型文件可从 标记为 4.0.0 的 tessdata 获取。它包含 2017 年 9 月的传统模型,这些模型已更新为 tessdata_best LSTM 模型的整数版本。这组训练数据文件支持使用 --oem 0 的传统识别器以及使用 --oem 1 的 LSTM 模型。这些模型可以从以下 Github 存储库获取。

在以下 Github 存储库中提供了另外两组 官方 训练数据,这些数据在 Google 进行了训练。它们不包含传统模型,只包含可以使用 --oem 1 的 LSTM 模型。

与上述版本 4.0.0 相同的语言模型训练数据文件可与 Tesseract 5.x.x 一起使用。它们可从以下位置获取

编译和安装

用法

API 示例

技术信息

Tesseract 5 训练

使用 tesstrain.sh(也称为 Tesseract 4 训练)进行训练不受支持/已废弃。请使用 tesseract-ocr/tesstrain 中的脚本进行训练。

测试

外部项目

旧版本的 用户手册