版本 4.00+ 的训练数据文件
我们有三个在 Google 训练的官方 .traineddata 文件集,用于 tesseract
4.00 及更高版本。这些文件在三个单独的仓库中提供。
- tessdata_fast (2017 年 9 月) 在速度和准确性之间取得最佳平衡,
整数
模型。 - tessdata_best (2017 年 9 月) 在 Google 的评估数据上取得最佳结果,速度较慢,
浮点数
模型。这些是唯一可以作为微调训练基础的模型。 - tessdata (2016 年 11 月和 2017 年 9 月) 这些包含 2016 年的传统 tesseract 模型。LSTM 模型已使用 tessdata_best LSTM 模型的整数版本进行了更新。(已删除用于印地语、阿拉伯语等的基于 Cube 的传统 tesseract 模型)。
当使用来自 tessdata_best
和 tessdata_fast
仓库的 traineddata 文件时,仅支持新的基于 LSTM 的 OCR 引擎 (–oem 1)。传统 tesseract 引擎 (–oem 0) 不支持这些文件,因此 Tesseract 的 oem 模式
'0' 和 '2' 无法使用它们。
特殊数据文件
语言代码 | 描述 | 4.x/3.0x traineddata |
---|---|---|
osd | 方向和脚本检测 | osd.traineddata |
equ | 数学/方程式检测 | equ.traineddata |
注意:这两个数据文件与旧版本的 Tesseract 兼容。 osd
与 3.01 及更高版本兼容, equ
与 3.02 及更高版本兼容。
更新的数据文件 (2017 年 9 月 15 日)
我们在 GitHub 上有三个 .traineddata 文件集,位于三个单独的仓库中。这些与 Tesseract 4.0x+ 和 5.0.0.Alpha 兼容。
训练模型 | 速度 | 准确性 | 支持传统 | 可重新训练 | |
---|---|---|---|---|---|
tessdata | 传统 + LSTM (整型 tessdata-best) | 比 tessdata-best 快 | 比 tessdata-best 略微不太准确 | 是 | 否 |
tessdata-best | 仅限 LSTM (基于 langdata) | 最慢 | 最准确 | 否 | 是 |
tessdata-fast | 比 tessdata-best 网络更小的整型 LSTM | 最快 | 最不准确 | 否 | 否 |
大多数用户会想要 tessdata_fast
,这也是将作为 Linux 发行版的一部分附带的。
tessdata_best
是为愿意用大量速度换取略微更高准确性的人准备的。它也是唯一可以用于某些高级用户重新训练场景的文件集。
tessdata
中的第三组是唯一支持传统识别器的组。2016 年 11 月的 4.00 文件同时具有传统模型和旧的 LSTM 模型。tessdata
中当前的文件集具有传统模型和更新的 LSTM 模型 (tessdata_best 中 4.00.00 alpha 模型的整数版本)。
注意:当使用 tessdata_best
和 tessdata_fast
仓库中的新模型时,仅支持新的基于 LSTM 的 OCR 引擎。传统引擎不支持这些文件,因此 Tesseract 的 oem 模式 '0' 和 '2' 无法使用它们。
版本 4.00 的数据文件 (2016 年 11 月 29 日)
标记为 4.0.0 的 tessdata 包含 2017 年 9 月的模型,这些模型已使用 整数
版本的 tessdata_best
LSTM 模型进行了更新。这组 traineddata 文件支持使用 –oem 0 的传统识别器和使用 –oem 1 的 LSTM 模型。
标记为 4.00 的 tessdata 包含 2016 年的模型。各个语言文件在下面的表格中链接。
注意: kur
数据文件没有从 3.04 更新。对于 Fraktur,请使用来自 tessdata_fast 或 tessdata_best 仓库的更新数据文件。
traineddata 文件的格式
每种语言的 traineddata
文件都是 Tesseract 特定格式的存档文件。它包含 Tesseract OCR 过程所需的几个未压缩的组件文件。程序 combine_tessdata
用于从组件文件创建 tessdata
文件,也可以像以下示例一样再次提取它们
2016 年 11 月的 4.0.0 之前的格式 (包含 LSTM 和传统模型)
combine_tessdata -u eng.traineddata eng.
Extracting tessdata components from eng.traineddata
Wrote eng.unicharset
Wrote eng.unicharambigs
Wrote eng.inttemp
Wrote eng.pffmtable
Wrote eng.normproto
Wrote eng.punc-dawg
Wrote eng.word-dawg
Wrote eng.number-dawg
Wrote eng.freq-dawg
Wrote eng.cube-unicharset
Wrote eng.cube-word-dawg
Wrote eng.shapetable
Wrote eng.bigram-dawg
Wrote eng.lstm
Wrote eng.lstm-punc-dawg
Wrote eng.lstm-word-dawg
Wrote eng.lstm-number-dawg
Wrote eng.version
Version string:Pre-4.0.0
1:unicharset:size=7477, offset=192
2:unicharambigs:size=1047, offset=7669
3:inttemp:size=976552, offset=8716
4:pffmtable:size=844, offset=985268
5:normproto:size=13408, offset=986112
6:punc-dawg:size=4322, offset=999520
7:word-dawg:size=1082890, offset=1003842
8:number-dawg:size=6426, offset=2086732
9:freq-dawg:size=1410, offset=2093158
11:cube-unicharset:size=1511, offset=2094568
12:cube-word-dawg:size=1062106, offset=2096079
13:shapetable:size=63346, offset=3158185
14:bigram-dawg:size=16109842, offset=3221531
17:lstm:size=5390718, offset=19331373
18:lstm-punc-dawg:size=4322, offset=24722091
19:lstm-word-dawg:size=7143578, offset=24726413
20:lstm-number-dawg:size=3530, offset=31869991
23:version:size=9, offset=31873521
4.00.00alpha 仅限 LSTM 格式
combine_tessdata -u eng.traineddata eng.
Extracting tessdata components from eng.traineddata
Wrote eng.lstm
Wrote eng.lstm-punc-dawg
Wrote eng.lstm-word-dawg
Wrote eng.lstm-number-dawg
Wrote eng.lstm-unicharset
Wrote eng.lstm-recoder
Wrote eng.version
Version string:4.00.00alpha:eng:synth20170629:[1,36,0,1Ct3,3,16Mp3,3Lfys64Lfx96Lrx96Lfx512O1c1]
17:lstm:size=11689099, offset=192
18:lstm-punc-dawg:size=4322, offset=11689291
19:lstm-word-dawg:size=3694794, offset=11693613
20:lstm-number-dawg:size=4738, offset=15388407
21:lstm-unicharset:size=6360, offset=15393145
22:lstm-recoder:size=1012, offset=15399505
23:version:size=80, offset=15400517
压缩 traineddata 文件的建议
有一些建议用标准存档格式替换 Tesseract 存档格式,该格式也可以支持压缩。在 [tesseract-dev 论坛上的讨论](https://groups.google.com/forum/?hl=en#!searchin/tesseract-dev/zip | sort:date/tesseract-dev/U5HSugUeeeI) 早在 2014 年就提出了 ZIP 格式。2017 年,一个 实验性实现 作为拉取请求提供。 |