跳至内容。

Tesseract 用户手册

本用户手册适用于 Tesseract 版本 5.x。对于版本 4.x.x3.05.02 和更早版本,请参阅 旧版本文档

简介

Tesseract 是一个开源的 文本识别 (OCR) 引擎,在 Apache 2.0 许可证 下提供。

Tesseract 可以通过 命令行 直接使用,或者(对于程序员)使用 API 从图像中提取打印文本。它支持 各种语言。Tesseract 没有内置的 GUI,但可以在 3rdParty 页面中找到一些可用的 GUI。Tesseract 的外部工具、包装器和训练项目列在 AddOns 下。

您可以在自己的项目中使用 Tesseract,遵守 Apache 许可证 2.0 的条款。它具有功能齐全的 API,并且可以为包括 Android 和 iPhone 在内的各种目标编译。有关已使用它的示例,请参阅 3rdPartyAddOns 页面。

如果您有疑问,请先阅读 文档,特别是 FAQ,查看您的问题是否已在那里解决。如果没有,请搜索 问题列表Tesseract 用户论坛,如果您仍然找不到您需要的内容,请在 Tesseract 用户论坛 Google 群组 中提出您的问题。

Tesseract 是免费软件,如果您想参与并提供帮助,请随时!如果您发现错误并自行修复,最好的做法是在 问题列表 中的错误报告中附加补丁。

发布和更改日志

使用 LSTM 的 Tesseract

Tesseract 4.0 添加了一个基于 LSTM 神经网络的新 OCR 引擎。它在 x86/Linux 上运行良好,官方语言模型数据可用于 100 多种语言和 35 种以上文字。有关更多详细信息,请参阅 4.0x-Changelog

5.x.x

源代码

Tesseract 5.x.x 源代码可在 存储库main 分支中找到。 main 分支使用 5.0.0 语义化版本控制,因为 C++ 代码现代化导致与 4.x 版本的 API 不兼容。

二进制文件

二进制文件可从以下位置获得:

训练数据文件

有关不同类型模型的详细信息,请参阅 数据文件

版本 4.00 的模型文件可从 标记为 4.00 的 tessdata 获取。它包含 2016 年 11 月的模型。单个语言文件链接可从以下链接获取。

版本 4.0.0 及更高版本的模型文件可从 标记为 4.0.0 的 tessdata 获取。它包含 2017 年 9 月的传统模型,这些模型已使用 tessdata_best LSTM 模型的整数版本更新。此训练数据文件集支持使用 --oem 0 的传统识别器和使用 --oem 1 的 LSTM 模型。这些模型可从以下 Github 存储库获取。

在以下 Github 存储库中提供了另外两组 official 训练数据,这些数据是在 Google 训练的。它们没有传统模型,只有可以使用 --oem 1 的 LSTM 模型。

与上面列出的版本 4.0.0 相同的语言模型训练数据文件可用于 Tesseract 5.x.x。它们可从以下位置获取:

编译和安装

用法

API 示例

技术信息

为 Tesseract 5 训练

使用 tesstrain.sh(又名 Tesseract 4 训练)进行训练不受支持/已弃用。请使用 tesseract-ocr/tesstrain 中的脚本进行训练。

测试

外部项目

旧版本的用户手册