有关 Tesseract 和其他第三方项目的 GUI 接口,请参见 用户项目 - 第三方
Tesseract 的外部工具、包装器和训练项目
Tesseract 框编辑器和训练工具
平台支持取决于使用的语言和用户的经验。
适用于 Tesseract 4.0 及更高版本
框文件编辑器
适用于 Tesseract 3.0x
框文件编辑器
名称 | 最后更新 | 语言 | 多页支持 |
---|---|---|---|
jTessBoxEditor | 2023 | Java | 是 |
QT 框编辑器 | 2019 | C++,Qt4/Qt5 | 是 |
tesseract-box-editor | 2013 | .NET 4 | 是 |
Tesseract-OCR 框文件 AJAX 编辑器 | 2012 | 在线工具 | |
cowboxer | 2012 | C++,Qt4 | 否 |
moshPyTT | 2011 | Python,GTK2 | 否 |
pytesseracttrainer | 2011 | Python,GTK2 | 否 |
适用于 Tesseract-OCR 2.0x
框文件编辑器
名称 | 最后更新 | 语言 |
---|---|---|
Tesseract-OCR 框文件 AJAX 编辑器 | 2012 | 在线工具 |
owlboxer | 2010 | C++,Qt4 |
Tessboxer | 2009 | .NET |
boxfilereader.php | 2009 | php |
tessboxes | 2008 | C |
JTesseract | 2008 | C# |
wx-tetra | 2008 | perl,wx |
bbtesseract | 2008 | VB.NET 2008 |
其他训练工具
-
jTessBoxEditor - 框编辑器和训练工具
- MzTesseract - 可以从上到下训练新语言的 MS Windows 程序
- FrankenPlus - 用于从页面图像为 Tesseract OCR 引擎创建字体训练的工具。有关 Franken+ 的更多信息,请访问 IT’S ALIVE! 和 Franken+ 主页。
- python-tesseract-3.02-training - 用于自动生成 Tesseract 3.02 训练文件的脚本
- tesseract-box-file - autoit 脚本,用于简化框文件的编辑
- Serak Tesseract Trainer for Tesseract 3.02 - 训练 tesseract 3.02 的前端 GUI
- BoxMaker 是用于生成图像和框对的在线工具。脱机版本可在 PersianOCR 项目 的下载部分获取
- boxFactory 是一个用于快速创建框文件以训练 Tesseract OCR 引擎的工具。您只需在图像周围绘制框即可识别字符。
- https://github.com/BaltoRouberol/TesseractTrainer - TesseractTrainer 是一个简单的 Python API,它接管了手动训练 Tesseract3 的繁琐过程
- tess_school - 一组方便的脚本,使 tesseract 训练过程变得更容易
- txt2img - 基于文本输入生成图像和框文件的 Qt GUI 应用程序
- DangAmbigs Generator - 给定一组 OCR 文本输出和正确文本,自动创建 DangAmbigs 文件。要求:Python
- train.ps1 - 用于自动执行 Tesseract 3.01 语言数据包生成过程的 Windows powershell 脚本。
- Update unicharambigs.exe - 用于编辑 “lang.unicharambigs” 文件的小型(Windows)C# 程序
- train_tess.pl - 用于简化训练的 perl 脚本
- boxedit - 用于 Tesseract 框文件的基于 Web 的编辑器
- TrainYourTesseract - 免费的在线“无忧”TTF 文件到训练数据转换器
社区训练项目
- Tesseract-MICR-OCR: https://github.com/BigPino67/Tesseract-MICR-OCR
- MRZ: https://groups.google.com/group/tesseract-ocr/attach/10d7c711c9cc80/mrz.traineddata
- 拉丁语: https://github.com/ryanfb/latinocr-lattraining
- tesseract-georgian: https://github.com/ddohler/tesseract-georgian
- 波兰黑体: 训练为 IMPACT 项目的结果,训练数据集
- 古希腊语: http://ancientgreekocr.org
- 印度语: http://code.google.com/p/tesseractindic/, https://github.com/debayan/Tesseract-Indic-OCR/, http://code.google.com/p/parichit/ (所有均已过时)
- 印度语-OCR http://indic-ocr.github.io/tessdata/
- 爱尔兰盎撒体: https://github.com/jimregan/tesseract-gle-uncial
- 波兰语: http://code.google.com/p/tesseract-polish/
- 黑体 (dan, deu, swe): https://github.com/paalberti/tesseract-dan-fraktur
- 缅甸语: http://code.google.com/p/myaocr/
- 波斯语(Farsi): https://github.com/reza1615/PersianOcr
- 7 段字体: https://github.com/arturaugusto/display_ocr/tree/master/letsgodigital
端口
- Project Naptha
- tesseract.js-core - Tesseract C++ API 的 Emscripten 端口
- tesseract.js - 纯 Javascript OCR
Tesseract 包装器
Tesseract 4.0x
Java
- tess4j - JNA 包装器。文档和讨论 - http://tess4j.sourceforge.net/
- bytedeco - 基于来自 https://bytedeco.org 的 JavaCPP-Presets 库的 Tesseract 的 Java 配置和接口类
Python
- tesserocr - Tesseract C++ API 的 Python 包装器
- pytesseract - Tesseract OCR 的包装类(需要 tesseract 可执行文件)
- tesseract-ocr-wrapper - 支持 PDF OCR 的 tesseract-ocr 的 Python 包装器
- aiopytesseract - Tesseract-OCR 的 asyncio tesseract 包装器。
- image2text - 用于处理大型数据集和目录的 tesseract 的 Python 包装器。
Objective-C
Swift
- swiftytesseract Swift 包装器
Flutter
- tesseract_ocr Flutter 插件
R
- tesseract R 编程语言的 C++ API 绑定
Ruby
- rtesseract Tesseract OCR 的包装 gem(需要 tesseract 可执行文件)
Rust
- rusty-tesseract Tesseract OCR 的包装类(需要 tesseract 可执行文件;基于 pytesseract)
Elixir
Crystal
Tesseract 3.0x
C
- Tesseract 3.02 及更高版本包含 C API
.Net
Python
- tesserocr - Tesseract C++ API 的 Python 包装器
- pyocr - Tesseract(和 Cuneiform)的 Python 包装器
- tesserwrap - Tesseract API 的 Python 绑定
- tesseract-sip - libtesseract 的 Python SIP 包装器(Apache 许可证)
- pytesseract - Tesseract OCR 的包装类(需要 tesseract 可执行文件)
- python-tesseract - 允许使用任何传统图像文件的 Tesseract OCR 包装类(基于 SWIG)
- http://code.google.com/p/pytess/ - Tesseract 的简单基于 SWIG 的接口
- aiopytesseract - Tesseract-OCR 的 asyncio tesseract 包装器。
R
- tesseract R 编程语言的 C++ API 绑定
Ruby
- ruby-tesseract-ocr - 使用 C++ API 的 tesseract 3.0x 包装器
- rtesseract
Java
- bytedeco - 基于来自 https://bytedeco.org 的 ‘JavaCPP-Presets’ 库的 Tesseract 的 Java 配置和接口类 - https://github.com/bytedeco/javacpp-presets
- tess4j - JNA 包装器。文档和讨论 - http://tess4j.sourceforge.net/
Node.js
- penteract - Tesseract OCR 项目的原生 node.js 绑定。
PHP
Objective-C
Go
Clojure
Tesseract 2.0x
Python
- http://code.google.com/p/pytesser/
- http://code.google.com/p/tesseract-python (pytesser 克隆)
.NET
- http://www.pixel-technology.com/freeware/tessnet2/
Java
- tess4j (0.4) - JNA 包装器。文档和讨论 - http://tess4j.sourceforge.net/