Tesseract 用户手册

本用户手册适用于 Tesseract 版本 5.x。对于版本 4.x.x、3.05.02 和更早版本，请参阅旧版本文档。

Tesseract 用户手册

简介

Tesseract 是一个开源文本识别 (OCR) 引擎，在 Apache 2.0 许可证下提供。

主要版本 5 是当前的稳定版本，从 5.0.0 版本开始，发布日期为 2021 年 11 月 30 日。
从 GitHub 可以获取较新的次要版本和错误修复版本。
最新的源代码可以在 GitHub 的 main 分支中找到。开放的问题可以在问题追踪器中找到，以及规划文档。

Tesseract 可以通过命令行直接使用，或者（对于程序员）通过使用 API 从图像中提取打印文本。它支持多种语言。Tesseract 没有内置的 GUI，但可以在 3rdParty 页面中找到一些可用的 GUI。Tesseract 的外部工具、包装器和训练项目在 AddOns 下列出。

Tesseract 可以根据 Apache 许可证 2.0 的条款在您自己的项目中使用。它具有功能齐全的 API，并且可以编译为各种目标，包括 Android 和 iPhone。请参阅 3rdParty 和 AddOns 页面，了解使用它的示例。

如果您有任何问题，请先阅读文档，尤其是 **常见问题解答 (FAQ)**，看看您的问题是否已在其中解决。如果没有，请搜索问题列表、Tesseract 用户论坛，如果您仍然没有找到您需要的内容，请在 Tesseract 用户论坛 Google 群组中提问。

Tesseract 是自由软件，如果您想参与并提供帮助，请这样做！如果您发现了一个错误并自己修复了它，最好的做法是将补丁附加到您在问题列表中的错误报告中。

版本和变更日志

带 LSTM 的 Tesseract

Tesseract **4.0** 添加了一个基于 LSTM 神经网络的新 OCR 引擎。它在 x86/Linux 上运行良好，并为 100 多种语言和 35 种以上文字提供了官方语言模型数据。请参阅 4.0x-Changelog，了解更多详细信息。

5.x.x

源代码

Tesseract **5.x.x** 源代码可以在存储库的 main 分支中找到。 main 分支正在使用 5.0.0 语义化版本控制，因为 C++ 代码现代化导致了与 4.x 版本的 API 不兼容。

二进制文件

二进制文件可从以下位置获取

训练数据文件

有关不同类型模型的详细信息，请参阅数据文件。

版本 4.00 的模型文件可从标记为 4.00 的 tessdata 获取。它包含 2016 年 11 月的模型。各个语言文件链接可从以下链接获取。

tessdata 4.00 2016 年 11 月

版本 4.0.0 及更高版本的模型文件可从标记为 4.0.0 的 tessdata 获取。它包含 2017 年 9 月的传统模型，这些模型已更新为 tessdata_best LSTM 模型的整数版本。这组训练数据文件支持使用 --oem 0 的传统识别器以及使用 --oem 1 的 LSTM 模型。这些模型可以从以下 Github 存储库获取。

tessdata

在以下 Github 存储库中提供了另外两组 官方 训练数据，这些数据在 Google 进行了训练。它们不包含传统模型，只包含可以使用 --oem 1 的 LSTM 模型。

与上述版本 4.0.0 相同的语言模型训练数据文件可与 Tesseract 5.x.x 一起使用。它们可从以下位置获取

编译和安装

用法

API 示例

技术信息

历史技术文档
Tesseract 的 API/ABI 更改审查
手册页
Doxygen 生成的源代码文档
Tesseract 中的神经网络
VGSL 规范
来自 TensorFlow 的 VGSL 规范信息
tessdata_fast 模型的网络规范
tessdata_best 模型的网络规范
DAS 2016 教程幻灯片幻灯片 #2、#6、#7 包含有关 Tesseract 4.0x 中 LSTM 集成的信息。
Tesseract OpenCL - 实验性

Tesseract 5 训练

使用 tesstrain.sh（也称为 Tesseract 4 训练）进行训练不受支持/已废弃。请使用 tesseract-ocr/tesstrain 中的脚本进行训练。

Tesseract 用户手册

Tesseract 文档

Tesseract 用户手册

简介

版本和变更日志

带 LSTM 的 Tesseract

5.x.x

源代码

二进制文件

训练数据文件

编译和安装

用法

API 示例

技术信息

Tesseract 5 训练

测试

外部项目

旧版本的用户手册

Tesseract 用户手册

简介

版本和变更日志

带 LSTM 的 Tesseract

5.x.x

源代码

二进制文件

训练数据文件

编译和安装

用法

API 示例

技术信息

Tesseract 5 训练

测试

外部项目

旧版本的 用户手册

旧版本的用户手册