Tesseract 用户手册
本用户手册适用于 Tesseract 版本 5.x
。对于版本 4.x.x
、3.05.02
和更早版本,请参阅 旧版本文档。
简介
Tesseract 是一个开源 文本识别 (OCR) 引擎,在 Apache 2.0 许可证 下提供。
- 主要版本 5 是当前的稳定版本,从 5.0.0 版本开始,发布日期为 2021 年 11 月 30 日。
- 从 GitHub 可以获取较新的次要版本和错误修复版本。
- 最新的源代码可以在 GitHub 的 main 分支 中找到。开放的问题可以在 问题追踪器 中找到,以及 规划文档。
Tesseract 可以通过 命令行 直接使用,或者(对于程序员)通过使用 API 从图像中提取打印文本。它支持 多种语言。Tesseract 没有内置的 GUI,但可以在 3rdParty 页面中找到一些可用的 GUI。Tesseract 的外部工具、包装器和训练项目在 AddOns 下列出。
Tesseract 可以根据 Apache 许可证 2.0 的条款在您自己的项目中使用。它具有功能齐全的 API,并且可以编译为各种目标,包括 Android 和 iPhone。请参阅 3rdParty 和 AddOns 页面,了解使用它的示例。
如果您有任何问题,请先阅读 文档,尤其是 **常见问题解答 (FAQ)**,看看您的问题是否已在其中解决。如果没有,请搜索 问题列表、Tesseract 用户论坛,如果您仍然没有找到您需要的内容,请在 Tesseract 用户论坛 Google 群组 中提问。
Tesseract 是自由软件,如果您想参与并提供帮助,请这样做!如果您发现了一个错误并自己修复了它,最好的做法是将补丁附加到您在 问题列表 中的错误报告中。
版本和变更日志
带 LSTM 的 Tesseract
Tesseract **4.0** 添加了一个基于 LSTM 神经网络的新 OCR 引擎。它在 x86/Linux 上运行良好,并为 100 多种语言和 35 种以上文字 提供了官方语言模型数据。请参阅 4.0x-Changelog,了解更多详细信息。
5.x.x
源代码
Tesseract **5.x.x** 源代码可以在 存储库 的 main
分支中找到。 main
分支正在使用 5.0.0
语义化版本控制,因为 C++ 代码现代化导致了与 4.x 版本的 API 不兼容。
二进制文件
二进制文件可从以下位置获取
训练数据文件
有关不同类型模型的详细信息,请参阅 数据文件。
版本 4.00
的模型文件可从 标记为 4.00 的 tessdata 获取。它包含 2016 年 11 月的模型。各个语言文件链接可从以下链接获取。
版本 4.0.0
及更高版本的模型文件可从 标记为 4.0.0 的 tessdata 获取。它包含 2017 年 9 月的传统模型,这些模型已更新为 tessdata_best
LSTM 模型的整数版本。这组训练数据文件支持使用 --oem 0
的传统识别器以及使用 --oem 1
的 LSTM 模型。这些模型可以从以下 Github 存储库获取。
在以下 Github 存储库中提供了另外两组 官方
训练数据,这些数据在 Google 进行了训练。它们不包含传统模型,只包含可以使用 --oem 1
的 LSTM 模型。
与上述版本 4.0.0
相同的语言模型训练数据文件可与 Tesseract 5.x.x
一起使用。它们可从以下位置获取
编译和安装
用法
API 示例
技术信息
- 历史技术文档
- Tesseract 的 API/ABI 更改审查
- 手册页
- Doxygen 生成的源代码文档
- Tesseract 中的神经网络
- VGSL 规范
- 来自 TensorFlow 的 VGSL 规范信息
- tessdata_fast 模型的网络规范
- tessdata_best 模型的网络规范
- DAS 2016 教程幻灯片 幻灯片 #2、#6、#7 包含有关 Tesseract 4.0x 中 LSTM 集成的信息。
- Tesseract OpenCL - 实验性
Tesseract 5 训练
使用 tesstrain.sh
(也称为 Tesseract 4 训练)进行训练不受支持/已废弃。请使用 tesseract-ocr/tesstrain 中的脚本进行训练。