幻觉效应
是指系统对初始条件的敏感依赖性,其中系统中一个状态的微小变化会导致后续状态发生巨大差异。它与“蝴蝶效应”和“多米诺效应”有一定关联。
在 Tesseract 4.x 中观察这种现象
如果你的训练文本频繁包含某种形式的特定元素。
-
示例 1:某个单词经常以大写形式出现
Word
,那么当你使用经过训练的模型识别word
时,它就会产生幻觉并将其识别为Word
。 -
示例 2:你的训练文本中经常在句子开头或结尾包含
空格
。这可能会导致训练缓慢、无法收敛甚至模型损坏。
结论
通常,幻觉效应是用于创建 traineddata
模型的文本的产物。
为了克服这种效应,应避免过度使用单个元素/形式/字符等。
此外,应使用大量多样化的文本输入进行训练,同时清理和删除你认为不必要的部分,因为 神经网络
也会学习模式和语言行为。