跳至内容。

版本 4.00+ 的训练数据文件

我们有三个在 Google 训练的官方 .traineddata 文件集,用于 tesseract 4.00 及更高版本。这些文件在三个单独的仓库中提供。

当使用来自 tessdata_besttessdata_fast 仓库的 traineddata 文件时,仅支持新的基于 LSTM 的 OCR 引擎 (–oem 1)。传统 tesseract 引擎 (–oem 0) 不支持这些文件,因此 Tesseract 的 oem 模式 '0' 和 '2' 无法使用它们。

特殊数据文件

语言代码 描述 4.x/3.0x traineddata
osd 方向和脚本检测 osd.traineddata
equ 数学/方程式检测 equ.traineddata

注意:这两个数据文件与旧版本的 Tesseract 兼容。 osd 与 3.01 及更高版本兼容, equ 与 3.02 及更高版本兼容。

更新的数据文件 (2017 年 9 月 15 日)

我们在 GitHub 上有三个 .traineddata 文件集,位于三个单独的仓库中。这些与 Tesseract 4.0x+ 和 5.0.0.Alpha 兼容。

  训练模型 速度 准确性 支持传统 可重新训练
tessdata 传统 + LSTM (整型 tessdata-best) 比 tessdata-best 快 比 tessdata-best 略微不太准确
tessdata-best 仅限 LSTM (基于 langdata) 最慢 最准确
tessdata-fast 比 tessdata-best 网络更小的整型 LSTM 最快 最不准确

大多数用户会想要 tessdata_fast,这也是将作为 Linux 发行版的一部分附带的。

tessdata_best 是为愿意用大量速度换取略微更高准确性的人准备的。它也是唯一可以用于某些高级用户重新训练场景的文件集。

tessdata 中的第三组是唯一支持传统识别器的组。2016 年 11 月的 4.00 文件同时具有传统模型和旧的 LSTM 模型。tessdata 中当前的文件集具有传统模型和更新的 LSTM 模型 (tessdata_best 中 4.00.00 alpha 模型的整数版本)。

注意:当使用 tessdata_besttessdata_fast 仓库中的新模型时,仅支持新的基于 LSTM 的 OCR 引擎。传统引擎不支持这些文件,因此 Tesseract 的 oem 模式 '0' 和 '2' 无法使用它们。

版本 4.00 的数据文件 (2016 年 11 月 29 日)

标记为 4.0.0 的 tessdata 包含 2017 年 9 月的模型,这些模型已使用 整数 版本的 tessdata_best LSTM 模型进行了更新。这组 traineddata 文件支持使用 –oem 0 的传统识别器和使用 –oem 1 的 LSTM 模型。

标记为 4.00 的 tessdata 包含 2016 年的模型。各个语言文件在下面的表格中链接。

注意kur 数据文件没有从 3.04 更新。对于 Fraktur,请使用来自 tessdata_fast 或 tessdata_best 仓库的更新数据文件。

语言代码 语言 4.0 traineddata
afr 南非荷兰语 afr.traineddata
amh 阿姆哈拉语 amh.traineddata
ara 阿拉伯语 ara.traineddata
asm 阿萨姆语 asm.traineddata
aze 阿塞拜疆语 aze.traineddata
aze_cyrl 阿塞拜疆语 - 西里尔字母 aze_cyrl.traineddata
bel 白俄罗斯语 bel.traineddata
ben 孟加拉语 ben.traineddata
bod 藏语 bod.traineddata
bos 波斯尼亚语 bos.traineddata
bul 保加利亚语 bul.traineddata
cat 加泰罗尼亚语;瓦伦西亚语 cat.traineddata
ceb 宿务语 ceb.traineddata
ces 捷克语 ces.traineddata
chi_sim 中文 - 简体 chi_sim.traineddata
chi_tra 中文 - 繁体 chi_tra.traineddata
chr 切罗基语 chr.traineddata
cym 威尔士语 cym.traineddata
dan 丹麦语 dan.traineddata
deu 德语 deu.traineddata
dzo 宗喀语 dzo.traineddata
ell 现代希腊语 (1453-) ell.traineddata
eng 英语 eng.traineddata
enm 中世纪英语 (1100-1500) enm.traineddata
epo 世界语 epo.traineddata
est 爱沙尼亚语 est.traineddata
eus 巴斯克语 eus.traineddata
fas 波斯语 fas.traineddata
fin 芬兰语 fin.traineddata
fra 法语 fra.traineddata
frk 德语哥特体 frk.traineddata
frm 中世纪法语 (约 1400-1600) frm.traineddata
gle 爱尔兰语 gle.traineddata
glg 加利西亚语 glg.traineddata
grc 古希腊语 (-1453) grc.traineddata
guj 古吉拉特语 guj.traineddata
hat 海地克里奥尔语 hat.traineddata
heb 希伯来语 heb.traineddata
hin 印地语 hin.traineddata
hrv 克罗地亚语 hrv.traineddata
hun 匈牙利语 hun.traineddata
iku 因纽特语 iku.traineddata
ind 印度尼西亚语 ind.traineddata
isl 冰岛语 isl.traineddata
ita 意大利语 ita.traineddata
ita_old 意大利语 - 古体 ita_old.traineddata
jav 爪哇语 jav.traineddata
jpn 日语 jpn.traineddata
kan 卡纳达语 kan.traineddata
kat 格鲁吉亚语 kat.traineddata
kat_old 格鲁吉亚语 - 古体 kat_old.traineddata
kaz 哈萨克语 kaz.traineddata
khm 高棉语 khm.traineddata
kir 吉尔吉斯语 kir.traineddata
kor 韩语 kor.traineddata
kur 库尔德语 kur.traineddata
lao 老挝语 lao.traineddata
lat 拉丁语 lat.traineddata
lav 拉脱维亚语 lav.traineddata
lit 立陶宛语 lit.traineddata
mal 马拉雅拉姆语 mal.traineddata
mar 马拉地语 mar.traineddata
mkd 马其顿语 mkd.traineddata
mlt 马耳他语 mlt.traineddata
msa 马来语 msa.traineddata
mya 缅甸语 mya.traineddata
nep 尼泊尔语 nep.traineddata
nld 荷兰语;佛兰德语 nld.traineddata
nor 挪威语 nor.traineddata
ori 奥里亚语 ori.traineddata
pan 旁遮普语 pan.traineddata
pol 波兰语 pol.traineddata
por 葡萄牙语 por.traineddata
pus 普什图语 pus.traineddata
ron 罗马尼亚语;摩尔多瓦语 ron.traineddata
rus 俄语 rus.traineddata
san 梵语 san.traineddata
sin 僧伽罗语 sin.traineddata
slk 斯洛伐克语 slk.traineddata
slv 斯洛文尼亚语 slv.traineddata
spa 西班牙语;卡斯蒂利亚语 spa.traineddata
spa_old 西班牙语;卡斯蒂利亚语 - 古体 spa_old.traineddata
sqi 阿尔巴尼亚语 sqi.traineddata
srp 塞尔维亚语 srp.traineddata
srp_latn 塞尔维亚语 - 拉丁字母 srp_latn.traineddata
swa 斯瓦希里语 swa.traineddata
swe 瑞典语 swe.traineddata
syr 叙利亚语 syr.traineddata
tam 泰米尔语 tam.traineddata
tel 泰卢固语 tel.traineddata
tgk 塔吉克语 tgk.traineddata
tgl 他加禄语 tgl.traineddata
tha 泰语 tha.traineddata
tir 提格雷语 tir.traineddata
tur 土耳其语 tur.traineddata
uig 维吾尔语 uig.traineddata
ukr 乌克兰语 ukr.traineddata
urd 乌尔都语 urd.traineddata
uzb 乌兹别克语 uzb.traineddata
uzb_cyrl 乌兹别克语 - 西里尔字母 uzb_cyrl.traineddata
vie 越南语 vie.traineddata
yid 意第绪语 yid.traineddata

traineddata 文件的格式

每种语言的 traineddata 文件都是 Tesseract 特定格式的存档文件。它包含 Tesseract OCR 过程所需的几个未压缩的组件文件。程序 combine_tessdata 用于从组件文件创建 tessdata 文件,也可以像以下示例一样再次提取它们

2016 年 11 月的 4.0.0 之前的格式 (包含 LSTM 和传统模型)

combine_tessdata -u eng.traineddata eng.
Extracting tessdata components from eng.traineddata
Wrote eng.unicharset
Wrote eng.unicharambigs
Wrote eng.inttemp
Wrote eng.pffmtable
Wrote eng.normproto
Wrote eng.punc-dawg
Wrote eng.word-dawg
Wrote eng.number-dawg
Wrote eng.freq-dawg
Wrote eng.cube-unicharset
Wrote eng.cube-word-dawg
Wrote eng.shapetable
Wrote eng.bigram-dawg
Wrote eng.lstm
Wrote eng.lstm-punc-dawg
Wrote eng.lstm-word-dawg
Wrote eng.lstm-number-dawg
Wrote eng.version
Version string:Pre-4.0.0
1:unicharset:size=7477, offset=192
2:unicharambigs:size=1047, offset=7669
3:inttemp:size=976552, offset=8716
4:pffmtable:size=844, offset=985268
5:normproto:size=13408, offset=986112
6:punc-dawg:size=4322, offset=999520
7:word-dawg:size=1082890, offset=1003842
8:number-dawg:size=6426, offset=2086732
9:freq-dawg:size=1410, offset=2093158
11:cube-unicharset:size=1511, offset=2094568
12:cube-word-dawg:size=1062106, offset=2096079
13:shapetable:size=63346, offset=3158185
14:bigram-dawg:size=16109842, offset=3221531
17:lstm:size=5390718, offset=19331373
18:lstm-punc-dawg:size=4322, offset=24722091
19:lstm-word-dawg:size=7143578, offset=24726413
20:lstm-number-dawg:size=3530, offset=31869991
23:version:size=9, offset=31873521

4.00.00alpha 仅限 LSTM 格式

combine_tessdata -u eng.traineddata eng.
Extracting tessdata components from eng.traineddata
Wrote eng.lstm
Wrote eng.lstm-punc-dawg
Wrote eng.lstm-word-dawg
Wrote eng.lstm-number-dawg
Wrote eng.lstm-unicharset
Wrote eng.lstm-recoder
Wrote eng.version
Version string:4.00.00alpha:eng:synth20170629:[1,36,0,1Ct3,3,16Mp3,3Lfys64Lfx96Lrx96Lfx512O1c1]
17:lstm:size=11689099, offset=192
18:lstm-punc-dawg:size=4322, offset=11689291
19:lstm-word-dawg:size=3694794, offset=11693613
20:lstm-number-dawg:size=4738, offset=15388407
21:lstm-unicharset:size=6360, offset=15393145
22:lstm-recoder:size=1012, offset=15399505
23:version:size=80, offset=15400517

压缩 traineddata 文件的建议

有一些建议用标准存档格式替换 Tesseract 存档格式,该格式也可以支持压缩。在 [tesseract-dev 论坛上的讨论](https://groups.google.com/forum/?hl=en#!searchin/tesseract-dev/zip sort:date/tesseract-dev/U5HSugUeeeI) 早在 2014 年就提出了 ZIP 格式。2017 年,一个 实验性实现 作为拉取请求提供。