有用控制参数和配置文件列表

简介

如果你知道如何控制 Tesseract，它将变得非常灵活。有很多控制参数可以修改它的行为。虽然这些参数会不时发生变化，但大多数参数都相当稳定。可以使用以下命令获取所有参数的默认值和简短说明：

tesseract --print-parameters

有三种不同的类型

其初始化宏中以 **INIT** 为特征。这些参数只能在 ` TessBaseAPI::Init ` 函数中设置，该函数接受一个配置文件列表。

注意：不能使用 tesseract 可执行文件选项 -c 更改仅初始化参数。

其余参数可以通过 ` TessBaseAPI::SetVariable ` 设置，并分为另外两组

控制 Tesseract 功能的许多不同方面。

包含名称中的“debug”，控制 Tesseract 工作时的大量可选调试文本和图形输出。

请注意，默认值可能会更改；如果需要确保默认值，请检查源代码。

名称	类型	默认值	仅初始化	说明
` load_system_dawg `	布尔值 (0/1)	1	是	控制是否加载所选语言的主要词典。
` user_words_suffix `	字符串	””	是	用户词词典文件的后缀。如果非空，它将尝试加载相关的单词列表，以添加到所选语言的词典中。例如，如果设置为 ` user-words `，Tesseract 将尝试在初始化时从 tessdata 目录加载 ` eng.user-words `。
` language_model_penalty_non_dict_word `	双精度 (0-1)	0.15	否	对不在 word_dawg/user_words 词典中的单词施加的惩罚。
` language_model_penalty_non_freq_dict_word `	双精度 (0-1)	0.1	否	对不在 freq_dawg 词典中的单词施加的惩罚。

一位日本 tesseract 用户发现这些参数有助于提高 tesseract-ocr (3.02) 对日语的识别精度

名称	建议值	说明
chop_enable	T	启用分割。
use_new_state_cost	F	使用新的状态成本启发式方法来评估分割状态。
segment_segcost_rating	F	将分割成本纳入单词评分中？
enable_new_segsearch	0	启用新的分割搜索路径。它可以解决将一个字符分成两个字符的问题
language_model_ngram_on	0	启用/禁用字符 n 元模型。
textord_force_make_prop_words	F	强制对所有行进行比例词分割。
edges_max_children_per_outline	40	每个字符轮廓内部的最大子节点数。如果一些汉字无法识别（被拒绝），请增加此值。