有用控制参数和配置文件列表
简介
如果你知道如何控制 Tesseract,它将变得非常灵活。有很多控制参数可以修改它的行为。虽然这些参数会不时发生变化,但大多数参数都相当稳定。可以使用以下命令获取所有参数的默认值和简短说明:
tesseract --print-parameters
有三种不同的类型
仅初始化
其初始化宏中以 **INIT** 为特征。这些参数只能在 ` TessBaseAPI::Init ` 函数中设置,该函数接受一个配置文件列表。
注意:不能使用 tesseract 可执行文件选项 -c
更改仅初始化参数。
其余参数可以通过 ` TessBaseAPI::SetVariable ` 设置,并分为另外两组
通用参数
控制 Tesseract 功能的许多不同方面。
调试参数
包含名称中的“debug”,控制 Tesseract 工作时的大量可选调试文本和图形输出。
有用参数
请注意,默认值可能会更改;如果需要确保默认值,请检查源代码。
名称 | 类型 | 默认值 | 仅初始化 | 说明 |
---|---|---|---|---|
` load_system_dawg ` | 布尔值 (0/1) | 1 | 是 | 控制是否加载所选语言的主要词典。 |
` user_words_suffix ` | 字符串 | ”” | 是 | 用户词词典文件的后缀。如果非空,它将尝试加载相关的单词列表,以添加到所选语言的词典中。例如,如果设置为 ` user-words `,Tesseract 将尝试在初始化时从 tessdata 目录加载 ` eng.user-words `。 |
` language_model_penalty_non_dict_word ` | 双精度 (0-1) | 0.15 | 否 | 对不在 word_dawg/user_words 词典中的单词施加的惩罚。 |
` language_model_penalty_non_freq_dict_word ` | 双精度 (0-1) | 0.1 | 否 | 对不在 freq_dawg 词典中的单词施加的惩罚。 |
日语和中文的有用参数
一位日本 tesseract 用户 发现这些参数有助于提高 tesseract-ocr (3.02) 对日语的识别精度
名称 | 建议值 | 说明 |
---|---|---|
chop_enable | T | 启用分割。 |
use_new_state_cost | F | 使用新的状态成本启发式方法来评估分割状态。 |
segment_segcost_rating | F | 将分割成本纳入单词评分中? |
enable_new_segsearch | 0 | 启用新的分割搜索路径。它可以解决将一个字符分成两个字符的问题 |
language_model_ngram_on | 0 | 启用/禁用字符 n 元模型。 |
textord_force_make_prop_words | F | 强制对所有行进行比例词分割。 |
edges_max_children_per_outline | 40 | 每个字符轮廓内部的最大子节点数。如果 一些汉字无法识别(被拒绝),请增加此值。 |