跳到内容。

有用控制参数和配置文件列表

简介

如果你知道如何控制 Tesseract,它将变得非常灵活。有很多控制参数可以修改它的行为。虽然这些参数会不时发生变化,但大多数参数都相当稳定。可以使用以下命令获取所有参数的默认值和简短说明:

tesseract --print-parameters

有三种不同的类型

仅初始化

其初始化宏中以 **INIT** 为特征。这些参数只能在 ` TessBaseAPI::Init ` 函数中设置,该函数接受一个配置文件列表。

注意:不能使用 tesseract 可执行文件选项 -c 更改仅初始化参数。

其余参数可以通过 ` TessBaseAPI::SetVariable ` 设置,并分为另外两组

通用参数

控制 Tesseract 功能的许多不同方面。

调试参数

包含名称中的“debug”,控制 Tesseract 工作时的大量可选调试文本和图形输出。

有用参数

请注意,默认值可能会更改;如果需要确保默认值,请检查源代码。

名称 类型 默认值 仅初始化 说明
` load_system_dawg ` 布尔值 (0/1) 1 控制是否加载所选语言的主要词典。
` user_words_suffix ` 字符串 ”” 用户词词典文件的后缀。如果非空,它将尝试加载相关的单词列表,以添加到所选语言的词典中。例如,如果设置为 ` user-words `,Tesseract 将尝试在初始化时从 tessdata 目录加载 ` eng.user-words `。
` language_model_penalty_non_dict_word ` 双精度 (0-1) 0.15 对不在 word_dawg/user_words 词典中的单词施加的惩罚。
` language_model_penalty_non_freq_dict_word ` 双精度 (0-1) 0.1 对不在 freq_dawg 词典中的单词施加的惩罚。

日语和中文的有用参数

一位日本 tesseract 用户 发现这些参数有助于提高 tesseract-ocr (3.02) 对日语的识别精度

名称 建议值 说明
chop_enable T 启用分割。
use_new_state_cost F 使用新的状态成本启发式方法来评估分割状态。
segment_segcost_rating F 将分割成本纳入单词评分中?
enable_new_segsearch 0 启用新的分割搜索路径。它可以解决将一个字符分成两个字符的问题
language_model_ngram_on 0 启用/禁用字符 n 元模型。
textord_force_make_prop_words F 强制对所有行进行比例词分割。
edges_max_children_per_outline 40 每个字符轮廓内部的最大子节点数。如果 一些汉字无法识别(被拒绝),请增加此值。