跳到内容。

发行说明

此页面记录了最新的发行说明。

目录

开发中

Tesseract 的 API/ABI 更改审查

API/ABI changes graph

api_abi_changes.png

V5.5.0

2024 年 11 月 10 日

https://github.com/tesseract-ocr/tesseract/releases/tag/5.5.0

V5.4.1

2024 年 6 月 11 日

https://github.com/tesseract-ocr/tesseract/releases/tag/5.4.1

V5.4.0

2024 年 6 月 6 日

https://github.com/tesseract-ocr/tesseract/releases/tag/5.4.0

V5.3.4

2024 年 1 月 18 日

https://github.com/tesseract-ocr/tesseract/releases/tag/5.3.4

V5.3.3

2023 年 10 月 5 日

https://github.com/tesseract-ocr/tesseract/releases/tag/5.3.3

V5.3.2

2023 年 7 月 11 日

https://github.com/tesseract-ocr/tesseract/releases/tag/5.3.2

V5.3.1

2023 年 4 月 1 日

通过在 PR #4022 中稍微调整格式来改进 DebugDump 输出。作者:@GerHobbelt

错误修复

CMake 构建系统

编译器支持

我们不再支持 GCC 和 libstdc++ 8.x。

V5.3.0

2022 年 12 月 22 日

LSTM 训练:扩展函数 BoxFileName 以处理另一种图像名称扩展名 .raw.png。作者:@bertsky 在 PR #3962 中。

错误修复

构建系统

V5.2.0

2022 年 7 月 6 日

V5.1.0

2022 年 3 月 1 日

V5.0.1

2022 年 1 月 7 日

CMake 构建

V5.0.0

2021 年 11 月 30 日

V4.1.3

2021 年 11 月 15 日

修复损坏的 autotools 构建。

V4.1.2

2021 年 11 月 14 日

Autotools 构建中的更改

V4.1.1

2019 年 12 月 26 日

V4.1.0

2019 年 7 月 7 日

V4.0.0

2018 年 10 月 29 日

V3.05.02

2018 年 6 月 19 日

此版本修复了一些错误,从 4.0.0 版本移植回来。

V3.05.01

2017 年 6 月 1 日

V3.05.00

2017 年 2 月 16 日

V3.04.01

2016 年 2 月 16 日

V3.04.00

2015 年 7 月 11 日

V3.03(rc1)

2014 年 2 月 4 日

V3.02.02

2012 年 10 月 23 日

V3.01

2011 年 10 月 21 日

V3.00

2010 年 9 月 30 日

V2.04

2009 年 6 月 30 日

V2.03

2008 年 4 月 22 日

2.02 由于最后一分钟的“简单”更改而无法运行。2.03 修复了这个问题。它还添加了对 leptonica 的包含检查,使其更易于使用。

V2.02

2008 年 4 月 21 日

V2.01

2007 年 8 月 30 日

(有关使用信息,另请参阅下面的 2.00 版本说明)

没有重大功能变化。只是进行了一些错误修复。

原始 6 种语言没有新的数据文件。使用 v2.00 中的文件。德语哥特体 (deu-f) 和巴西葡萄牙语 (por) 有新的数据文件。

**最新消息** unicharset_extractor 中存在一个小错误。由于这仅适用于训练,因此除非您需要运行训练,否则主 tarball 很好,在这种情况下,请用 tesseract-2.01.patch1.tar.gz 中的文件覆盖您的 unicharset_extractor.cpp 和 unicharset_extractor.exe。

V2.00

2007 年 7 月 18 日

(有关其他使用信息,另请参阅下面的 1.04 版本说明)

国际版的第一个版本。此版本识别以下语言

语言代码遵循 ISO 639-2。默认语言为英语。要识别其他语言

tesseract inputimage outputbase -l langcode

要在新语言上进行训练,请参阅 TrainingTesseract2。随着时间的推移,将出现更多语言。

此版本中的更改列表

**警告:** Tesseract 2.00 比以前的任何版本都进行了更多兼容性测试。甚至还有一些修复,使跨平台的准确性更加一致。话虽如此,代码中也进行了许多更改,并且可移植性可能已被破坏,因此 64 位和 Mac 平台可能无法工作,甚至无法像以前一样构建。

V1.04

2007 年 5 月 15 日

Tesseract 开发现在使用 Subversion 完成,并托管在 code.google.com 上(以前我们使用 CVS 作为 VCS,并使用 sourceforge.net 进行托管)。

仅限 Windows 用户

为 windows 添加了一个 dll 接口。感谢 Jetsoft 的 Glen 为此做出的贡献。要使用 dll,请包含 tessdll.h,导入 tessdll.lib 并将 tessdll.dll 放在系统可以找到它的位置。还有一个小的 dlltest 程序来测试 dll。使用以下命令运行

dlltest phototest.tif phototest.txt

它将输出 phototest.tif 中的文本,并带有边界框信息。

Windows 的新功能

该发行版现在包含 tesseract.exe 和 tessdll.dll,它们 **可能** 可以开箱即用!没有保证,因为您需要 VC++6 版本的 MFC 和 CRT(至少)才能使其工作。(不包括电池,当然也不包括 installshield。)

对于使用 make 构建的任何人的重要说明:即除 devstudio 用户以外的任何人

此版本包含数据目录的新标准化。要使 Tesseract 能够找到其数据文件,您必须:

./configure
make
make install

将数据文件移动到标准位置,或者

export TESSDATA_PREFIX="directory in which your tessdata resides/"

(或等效项)在您的 .profile 或其他任何地方或 setenv 中设置环境变量。请注意,目录必须以 / 结尾

将 tesseract 和 tessdata **放在同一个目录中不再起作用**。

所有用户

修复了大量的名称冲突 - 主要与 STL 相关。进行了初步更改,以实现 unicode 兼容性。包括一个新的数据文件 (unicharset) 和其他数据文件的重命名,例如 eng,以支持不同的语言。此外,还修复了几个其他小错误,并为 64 位、最新的 Visual Studio 编译器等进行了 **可移植性改进** 。

感谢所有为这些修复做出贡献的人。

注意:这很可能是最后一个仅限英语的版本!对于非 Windows 用户,我们事先表示歉意,因为我们为发行版增加了 Windows 可执行文件。这可能会在下一个版本(具有多语言功能)中得到修复,因为这也会使发行版膨胀。

V1.03

2007 年 2 月 3 日

V1.02

2006 年 10 月 4 日

V1.01

2006 年 9 月 7 日

V1.00

2006 年 6 月 17 日

Tesseract 的第一个 **开源** 版本!

托管在 sourceforge.net 上。CVS 用于版本控制。