用于 Tesseract 训练的字体
Tesseract 训练可以使用由文本渲染的图像,这些文本使用字体列表进行渲染。这些字体必须在运行训练过程的主机上可用。
用于训练 3.05 的 OCR 引擎和 4.0.0 中的传统 OCR 引擎的字体在 training/language-specific.sh 中定义。
在 langdata/font_properties 中列出了更多字体。如果您将字体添加到第一个文件(或通过命令行参数显式指定它们),则必须将它们添加到第二个文件。
用于在 4.0.0 中训练 LSTM OCR 引擎的字体在 langdata_lstm 存储库 中的 <lang>/okfonts.txt
文件中定义。
查找字体
要查找已安装在系统上的字体,这些字体将渲染给定的训练文本,可以使用以下命令(更改语言代码和目录位置以匹配您的设置)。fontslist.txt 将提供可在 training/language-specific.sh
中使用的文本。
text2image --find_fonts \
--fonts_dir /usr/share/fonts \
--text ./langdata/eng/eng.training_text \
--min_coverage .9 \
--outputbase ./langdata/eng/eng \
|& grep raw \
| sed -e 's/ :.*/@ \\/g' \
| sed -e "s/^/ '/" \
| sed -e "s/@/'/g" >./langdata/eng/fontslist.txt
以上方法不适用于 Fraktur 字体,它也将识别所有拉丁字体。查看生成的图像并选择合适的字体。
字体安装
Debian
在 Debian GNU Linux 和类似发行版(Linux Mint、Ubuntu 等)上,可以像这样安装所需的字体
# AMHARIC_FONTS (todo)
# ANCIENT_GREEK_FONTS (todo)
# ARABIC_FONTS (todo)
# ARMENIAN_FONTS (todo)
# BENGALI_FONTS (todo)
# BURMESE_FONTS (todo)
# CHI_SIM_FONTS (todo)
# CHI_TRA_FONTS (todo)
# DEVANAGARI_FONTS (see also external links below)
apt-get install fonts-deva
# EARLY_LATIN_FONTS (todo)
# FRAKTUR_FONTS (todo)
# GEORGIAN_FONTS (todo)
# GREEK_FONTS (todo)
# GUJARATI_FONTS (todo)
# HEBREW_FONTS (todo)
# JPN_FONTS (todo)
apt-get install fonts-noto-cjk fonts-japanese-mincho.ttf fonts-takao-gothic fonts-vlgothic
# KANNADA_FONTS (todo)
# KHMER_FONTS (todo)
# KOREAN_FONTS (todo)
# KURDISH_FONTS (todo)
# KYRGYZ_FONTS (todo)
# LAOTHIAN_FONTS (todo)
# LATIN_FONTS
apt-get install fonts-dejavu gsfonts ttf-mscorefonts-installer
# MALAYALAM_FONTS (todo)
# NEOLATIN_FONTS (still incomplete)
apt-get install fonts-ebgaramond fonts-gfs-didot fonts-gfs-didot-classic fonts-junicode
# NORTH_AMERICAN_ABORIGINAL_FONTS (todo)
# OLD_GEORGIAN_FONTS (todo)
# ORIYA_FONTS (todo)
# PERSIAN_FONTS (todo)
# PUNJABI_FONTS (todo)
# RUSSIAN_FONTS (todo)
# SINHALA_FONTS (todo)
# SYRIAC_FONTS (todo)
# TAMIL_FONTS (todo)
# TELUGU_FONTS (todo)
# THAANA_FONTS (todo)
# THAI_FONTS (todo)
# TIBETAN_FONTS (todo)
# VERTICAL_FONTS (todo)
# VIETNAMESE_FONTS (todo)
已安装的字体由命令 fc-list
显示。另请参见 Debian wiki。
text2image --fonts_dir /usr/share/fonts --list_available_fonts
也会显示所有字体。
链接
(主要是免费的)字体的来源
涵盖多种脚本的字体
- https://savannah.gnu.org/projects/unifont/
拉丁字体
- https://fontlibrary.org/en (GFS Bodoni)
- https://fonts.google.com/
- http://iginomarini.com/fell/the-revival-fonts/
- http://scholarsfonts.net/ (Cardo)
- http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&id=FontDownloads (SIL 字体)
- http://www.ctan.org/tex-archive/fonts (GFS Bodoni)
- http://www.steffmann.de/wordpress/test-2/
阿拉伯字体
- https://fonts.google.com/?subset=arabic
天城文字体
- Aksharayogini2
- AksharayoginiBoldItalic
- AksharayoginiBold
- AksharayoginiItalic
- Aksharayogini
- Ananda Akchyar Devanagari
- AnnapurnaSIL
- CDAC-Surekh Bold
- CDAC-Surekh Normal
- CDAC-Yogesh Bold
- CDAC-Yogesh Italic
- CDAC-Yogesh Normal
- Chandas
- Gotu
- Jaini
- Jaini Purva
- Lohit Devanagari
- Nakula
- Mukta
- Murty Hindi
- Murty Sanskrit
- Sahadeva
- Sanskrit2003
- Santipur OT
- Sharad76
- Shobhika
- Shree-DV0726-OT
- Siddhanta
- Uttara
- Yashomudra 字体
- Google 天城文字体
- 来自 TDIL Hindi CD 的字体
- 来自比哈尔议会链接
- 来自 bih.nic.in 链接
Fraktur 字体
- http://unifraktur.sourceforge.net/maguntia.html (UnifrakturMaguntia)
- http://www.orbitals.com/self/ligature/ligature.htm (Wyld)
- https://www.fontyukle.net/de/1,Walbaum
- http://de.ffonts.net/Walbaum-Fraktur.font.download
- http://www.1001fonts.com/fraktur-fonts.html
- http://www.dafont.com/fette-unz-fraktur.font
- http://www.1001freefonts.com/fette_fraktur.font
- http://www.ligafaktur.de/Schriften.html
- http://www.morscher.com/3r/fonts/fraktur.htm
希伯来语字体
字体合集
- http://www.abstractfonts.com/
- http://www.schriftarten-fonts.de/ (德语)
有关字体的更多信息
- https://en.wikipedia.org/wiki/Fraktur
- http://www.orbitals.com/self/ligature/ligature.htm 18 世纪连字和字体
- http://www.steffmann.de/wordpress/ (德语)