输入格式
支持的输入格式
Tesseract 使用 Leptonica 库来读取以下格式的图像
- PNG - 需要 libpng、libz
- JPEG - 需要 libjpeg / libjpeg-turbo
- TIFF - 需要 libtiff、libz
- JPEG 2000 - 需要 libopenjp2
- GIF - 需要 libgif (giflib)
- WebP 需要 libwebp
- BMP - 不需要库*
- PNM - 不需要库*
* 除了 Leptonica
不支持的输入格式
如果 Tesseract 不支持某种文件格式,您应该使用第三方软件将其转换为 Tesseract 支持的另一种格式。
Tesseract 不支持读取 PDF 文件。
如果您需要 OCR PDF 文件,您应该将其转换为其他格式或使用 OCRmyPDF。
注意:Tesseract 支持 PDF 作为输出格式。
动画 WebP
Tesseract 不支持读取动画 WebP 文件。
动画 GIF
Tesseract 不支持读取动画 GIF 文件。
如果给定这样的文件,Tesseract 将只读取文件中图像序列中的第一张图像。
其他格式
Tesseract 不支持以下图像格式
- HEIC
- AVIF
- JPEG-XL