Tesseract 詳細設定

VB C#

using IronOcr;
using System;

var ocrTesseract = new IronTesseract()
{
    Language = OcrLanguage.EnglishBest,
    Configuration = new TesseractConfiguration()
    {
        ReadBarCodes = false,
        RenderHocr = true,
        BlackListCharacters = "`ë|^",
        PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd,
    }
};

using var ocrInput = new OcrInput();
ocrInput.LoadImage(@"images\image.png");
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);

Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract() With {
	.Language = OcrLanguage.EnglishBest,
	.Configuration = New TesseractConfiguration() With {
		.ReadBarCodes = False,
		.RenderHocr = True,
		.BlackListCharacters = "`ë|^",
		.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd
	}
}

Private ocrInput = New OcrInput()
ocrInput.LoadImage("images\image.png")
Dim ocrResult = ocrTesseract.Read(ocrInput)
Console.WriteLine(ocrResult.Text)

Install-Package IronOcr

Tesseract 詳細設定

當談到OCR時，具備選擇和靈活性以不同方式從文件中提取文字是必不可少的。由於執行OCR的成本高昂，能夠控制性能和方法以用於特定文件是必需的，這確保使用OCR的應用程式具有可擴展性和效率。

IronTesseract 為開發者提供了不同的屬性和選項以進行調整。例如，如果您想要將某些字元列入黑名單，或者希望同時讀取文件中的條碼，甚至控制OCR引擎如何讀取頁面以掃描潛在的文字塊，所有這些以及更多都可以透過 IronTesseract 類來實現。

IronOCR與`Tesseract` 5的5步指南

var ocrTesseract = new IronTesseract();
ocrTesseract.Language = OcrLanguage.EnglishBest;
ocrTesseract.Configuration.ReadBarCodes = false;
ocrTesseract.Configuration.BlackListCharacters = "`ë|^";
ocrTesseract.Configuration.TesseractVariables["tessedit_parallelize"] = false;

在初始化IronTesseract類後，我們有一些重要的選項立刻可供修改。要配置的第一個屬性是Language。預設情況下，語言是英文；然而，IronTesseract 支援多達125種語言，甚至允許透過UseMultipleLanguages方法使用多種語言。欲了解更多細節，請參考這裡。

我們要配置的第二個屬性是TesseractConfiguration類。使用此類，我們可以修改Tesseract引擎如何掃描文件以尋找潛在的文字塊。

首先，我們透過指派語言給OcrLanguage.EnglishBest來修改Tesseract引擎的語言。此變化結合了OEM，這兩者都是使用OCR的形狀識別策略；結合這兩種策略可以使OCR產生更準確的結果。
之後，我們將ReadBarCodes設為false，以避免在OCR過程中讀取條碼。

我們還進一步自訂並指定我們想要提取的字元，透過在文件上將某些字元列入黑名單；在此範例中，我們將字元列入黑名單以避免提取帶有反引號、重音符或插入字元的文字。最後，我們將TesseractVariables["tessedit_parallelize"]設為false，以暫時禁用並行處理。這最後一個是一個非常強大的功能，因為它直接與Tesseract引擎對話。這裡是TesseractVariables的完整列表，允許開發人員在進行OCR時進一步自訂Tesseract引擎的行為。

探索更多IronTesseract配置選項