Tesseract详细配置

VB C#

using IronOcr;
using System;

var ocrTesseract = new IronTesseract()
{
    Language = OcrLanguage.EnglishBest,
    Configuration = new TesseractConfiguration()
    {
        ReadBarCodes = false,
        RenderHocr = true,
        BlackListCharacters = "`ë|^",
        PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd,
    }
};

using var ocrInput = new OcrInput();
ocrInput.LoadImage(@"images\image.png");
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);

Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract() With {
	.Language = OcrLanguage.EnglishBest,
	.Configuration = New TesseractConfiguration() With {
		.ReadBarCodes = False,
		.RenderHocr = True,
		.BlackListCharacters = "`ë|^",
		.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd
	}
}

Private ocrInput = New OcrInput()
ocrInput.LoadImage("images\image.png")
Dim ocrResult = ocrTesseract.Read(ocrInput)
Console.WriteLine(ocrResult.Text)

Install-Package IronOcr

Tesseract详细配置

对于 OCR 而言，能够灵活地选择和提取文档中的文本至关重要。由于执行 OCR 的成本很高，因此需要能够控制特定文档的性能和使用方法，以确保使用 OCR 的应用程序具有可扩展性和高效性。

IronTesseract为开发人员提供各种属性和选项以供操作。例如，如果您想要禁止某些字符或还希望读取文档中的条形码，甚至指示OCR引擎如何阅读页面以扫描可能的文本块，这一切都可以通过IronTesseract类实现。

使用`Tesseract` 5进行IronOCR的5步指南

var ocrTesseract = new IronTesseract();
ocrTesseract.Language = OcrLanguage.EnglishBest;
ocrTesseract.Configuration.ReadBarCodes = false;
ocrTesseract.Configuration.BlackListCharacters = "`ë|^";
ocrTesseract.Configuration.TesseractVariables["tessedit_parallelize"] = false;

在初始化IronTesseract类之后，我们需要立即修改一些重要的选项。第一个要配置的属性是Language。默认语言为英语；然而，UseMultipleLanguages方法支持多种语言。更多详情请参考这里。

我们要配置的第二个属性是TesseractConfiguration类。通过此类，我们可以修改 Tesseract 引擎扫描文档中潜在文本块的方式。

首先，我们通过分配语言给OcrLanguage.EnglishBest来修改Tesseract引擎的语言。此变体结合了OEM，这是一种使用OCR的形状识别策略；结合这两种策略可以使 OCR 产生更准确的结果。
之后，我们将ReadBarCodes设置为false以避免在OCR过程中读取条形码。

我们还可以通过将文档中的某些字符列入黑名单，进一步自定义和指定要提取的字符；在这个例子中，我们将某些字符列入黑名单，以避免提取包含反引号、重音符号或插入符号的文本。最后，我们将TesseractVariables["tessedit_parallelize"]设置为false以暂时禁用并行处理。这是一个非常强大的功能，因为它直接与Tesseract引擎进行通信。这里是允许开发人员进一步定制Tesseract引擎在执行OCR时行为的TesseractVariables完整列表。

探索更多 IronTesseract 配置选项