跳至内容。

用于 Tesseract 训练的字体

Tesseract 训练可以使用由文本渲染的图像,这些文本使用字体列表进行渲染。这些字体必须在运行训练过程的主机上可用。

用于训练 3.05 的 OCR 引擎和 4.0.0 中的传统 OCR 引擎的字体在 training/language-specific.sh 中定义。

langdata/font_properties 中列出了更多字体。如果您将字体添加到第一个文件(或通过命令行参数显式指定它们),则必须将它们添加到第二个文件。

用于在 4.0.0 中训练 LSTM OCR 引擎的字体在 langdata_lstm 存储库 中的 <lang>/okfonts.txt 文件中定义。

查找字体

要查找已安装在系统上的字体,这些字体将渲染给定的训练文本,可以使用以下命令(更改语言代码和目录位置以匹配您的设置)。fontslist.txt 将提供可在 training/language-specific.sh 中使用的文本。

text2image --find_fonts \
--fonts_dir /usr/share/fonts \
--text ./langdata/eng/eng.training_text \
--min_coverage .9  \
--outputbase ./langdata/eng/eng \
|& grep raw \
 | sed -e 's/ :.*/@ \\/g' \
 | sed -e "s/^/  '/" \
 | sed -e "s/@/'/g" >./langdata/eng/fontslist.txt

以上方法不适用于 Fraktur 字体,它也将识别所有拉丁字体。查看生成的图像并选择合适的字体。

字体安装

Debian

在 Debian GNU Linux 和类似发行版(Linux Mint、Ubuntu 等)上,可以像这样安装所需的字体

# AMHARIC_FONTS (todo)
# ANCIENT_GREEK_FONTS (todo)
# ARABIC_FONTS (todo)
# ARMENIAN_FONTS (todo)
# BENGALI_FONTS (todo)
# BURMESE_FONTS (todo)
# CHI_SIM_FONTS (todo)
# CHI_TRA_FONTS (todo)

# DEVANAGARI_FONTS (see also external links below)
apt-get install fonts-deva

# EARLY_LATIN_FONTS (todo)
# FRAKTUR_FONTS (todo)
# GEORGIAN_FONTS (todo)
# GREEK_FONTS (todo)
# GUJARATI_FONTS (todo)
# HEBREW_FONTS (todo)

# JPN_FONTS (todo)
apt-get install fonts-noto-cjk fonts-japanese-mincho.ttf fonts-takao-gothic fonts-vlgothic

# KANNADA_FONTS (todo)
# KHMER_FONTS (todo)
# KOREAN_FONTS (todo)
# KURDISH_FONTS (todo)
# KYRGYZ_FONTS (todo)
# LAOTHIAN_FONTS (todo)

# LATIN_FONTS
apt-get install fonts-dejavu gsfonts ttf-mscorefonts-installer

# MALAYALAM_FONTS (todo)

# NEOLATIN_FONTS (still incomplete)
apt-get install fonts-ebgaramond fonts-gfs-didot fonts-gfs-didot-classic fonts-junicode

# NORTH_AMERICAN_ABORIGINAL_FONTS (todo)
# OLD_GEORGIAN_FONTS (todo)
# ORIYA_FONTS (todo)
# PERSIAN_FONTS (todo)
# PUNJABI_FONTS (todo)
# RUSSIAN_FONTS (todo)
# SINHALA_FONTS (todo)
# SYRIAC_FONTS (todo)
# TAMIL_FONTS (todo)
# TELUGU_FONTS (todo)
# THAANA_FONTS (todo)
# THAI_FONTS (todo)
# TIBETAN_FONTS (todo)
# VERTICAL_FONTS (todo)
# VIETNAMESE_FONTS (todo)

已安装的字体由命令 fc-list 显示。另请参见 Debian wiki

text2image --fonts_dir /usr/share/fonts --list_available_fonts 也会显示所有字体。

(主要是免费的)字体的来源

涵盖多种脚本的字体

拉丁字体

阿拉伯字体

天城文字体

Fraktur 字体

希伯来语字体

字体合集

有关字体的更多信息