Tesseract 用户手册

本用户手册适用于 Tesseract 版本 5.x。对于版本 4.x.x、3.05.02 和更早版本，请参阅旧版本文档。

Tesseract 用户手册

简介

Tesseract 是一个开源的文本识别 (OCR) 引擎，在 Apache 2.0 许可证下提供。

主要版本 5 是当前的稳定版本，从 2021 年 11 月 30 日发布的 5.0.0 开始。
较新的次要版本和错误修复版本可从 GitHub 获取。
最新的源代码可从 GitHub 上的 main 分支获取。可以在问题跟踪器中找到未解决的问题，以及规划文档。

Tesseract 可以通过命令行直接使用，或者（对于程序员）使用 API 从图像中提取打印文本。它支持各种语言。Tesseract 没有内置的 GUI，但可以在 3rdParty 页面中找到一些可用的 GUI。Tesseract 的外部工具、包装器和训练项目列在 AddOns 下。

您可以在自己的项目中使用 Tesseract，遵守 Apache 许可证 2.0 的条款。它具有功能齐全的 API，并且可以为包括 Android 和 iPhone 在内的各种目标编译。有关已使用它的示例，请参阅 3rdParty 和 AddOns 页面。

如果您有疑问，请先阅读文档，特别是 FAQ，查看您的问题是否已在那里解决。如果没有，请搜索问题列表、Tesseract 用户论坛，如果您仍然找不到您需要的内容，请在 Tesseract 用户论坛 Google 群组中提出您的问题。

Tesseract 是免费软件，如果您想参与并提供帮助，请随时！如果您发现错误并自行修复，最好的做法是在问题列表中的错误报告中附加补丁。

发布和更改日志

使用 LSTM 的 Tesseract

Tesseract 4.0 添加了一个基于 LSTM 神经网络的新 OCR 引擎。它在 x86/Linux 上运行良好，官方语言模型数据可用于 100 多种语言和 35 种以上文字。有关更多详细信息，请参阅 4.0x-Changelog。

5.x.x

源代码

Tesseract 5.x.x 源代码可在存储库的 main 分支中找到。 main 分支使用 5.0.0 语义化版本控制，因为 C++ 代码现代化导致与 4.x 版本的 API 不兼容。

二进制文件

二进制文件可从以下位置获得：

训练数据文件

有关不同类型模型的详细信息，请参阅数据文件。

版本 4.00 的模型文件可从标记为 4.00 的 tessdata 获取。它包含 2016 年 11 月的模型。单个语言文件链接可从以下链接获取。

tessdata 4.00 2016 年 11 月

版本 4.0.0 及更高版本的模型文件可从标记为 4.0.0 的 tessdata 获取。它包含 2017 年 9 月的传统模型，这些模型已使用 tessdata_best LSTM 模型的整数版本更新。此训练数据文件集支持使用 --oem 0 的传统识别器和使用 --oem 1 的 LSTM 模型。这些模型可从以下 Github 存储库获取。

tessdata

在以下 Github 存储库中提供了另外两组 official 训练数据，这些数据是在 Google 训练的。它们没有传统模型，只有可以使用 --oem 1 的 LSTM 模型。

与上面列出的版本 4.0.0 相同的语言模型训练数据文件可用于 Tesseract 5.x.x。它们可从以下位置获取：

编译和安装

用法

API 示例

技术信息

历史技术文档
Tesseract 的 API/ABI 更改审查
手册页
由 Doxygen 生成的源代码文档
Tesseract 中的神经网络
VGSL 规范
来自 Tensorflow 的 VGSL 规范信息
tessdata_fast 模型的网络规范
tessdata_best 模型的网络规范
DAS 2016 教程幻灯片幻灯片 #2、#6、#7 包含有关 Tesseract 4.0x 中 LSTM 集成的信息。
Tesseract OpenCL - 实验性

为 Tesseract 5 训练

使用 tesstrain.sh（又名 Tesseract 4 训练）进行训练不受支持/已弃用。请使用 tesseract-ocr/tesstrain 中的脚本进行训练。

Tesseract 用户手册

Tesseract 文档

Tesseract 用户手册

简介

发布和更改日志

使用 LSTM 的 Tesseract

5.x.x

源代码

二进制文件

训练数据文件

编译和安装

用法

API 示例

技术信息

为 Tesseract 5 训练

测试

外部项目

旧版本的用户手册