Szczegółowa konfiguracja Tesseract

VB C#

using IronOcr;
using System;

var ocrTesseract = new IronTesseract()
{
    Language = OcrLanguage.EnglishBest,
    Configuration = new TesseractConfiguration()
    {
        ReadBarCodes = false,
        RenderHocr = true,
        BlackListCharacters = "`ë|^",
        PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd,
    }
};

using var ocrInput = new OcrInput();
ocrInput.LoadImage(@"images\image.png");
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);

Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract() With {
	.Language = OcrLanguage.EnglishBest,
	.Configuration = New TesseractConfiguration() With {
		.ReadBarCodes = False,
		.RenderHocr = True,
		.BlackListCharacters = "`ë|^",
		.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd
	}
}

Private ocrInput = New OcrInput()
ocrInput.LoadImage("images\image.png")
Dim ocrResult = ocrTesseract.Read(ocrInput)
Console.WriteLine(ocrResult.Text)

Install-Package IronOcr

Szczegółowa konfiguracja Tesseract

Jeśli chodzi o OCR, niezbędne jest posiadanie opcji i elastyczności w zakresie podejścia do dokumentów oraz sposobu wyodrębniania z nich tekstu. Ponieważ wykonywanie OCR jest kosztowne, konieczna jest możliwość kontrolowania wydajności i metod stosowanych w przypadku konkretnych dokumentów, aby zapewnić skalowalność i wydajność aplikacji wykorzystującej OCR.

IronTesseract oferuje programistom różne właściwości i opcje, z którymi można eksperymentować. Na przykład, jeśli chcesz zablokować niektóre znaki lub także chcesz odczytywać kody kreskowe w dokumentach, a nawet określić, jak silnik OCR czyta stronę w celu zeskanowania potencjalnych bloków tekstu, wszystko to i więcej za pomocą klasy IronTesseract.

Przewodnik 5-krokowy użycia IronOCR z `Tesseract` 5

var ocrTesseract = new IronTesseract();
ocrTesseract.Language = OcrLanguage.EnglishBest;
ocrTesseract.Configuration.ReadBarCodes = false;
ocrTesseract.Configuration.BlackListCharacters = "`ë|^";
ocrTesseract.Configuration.TesseractVariables["tessedit_parallelize"] = false;

Po zainicjowaniu klasy IronTesseract dostępnych jest kilka ważnych opcji, które warto od razu zmodyfikować. Pierwszą właściwością do skonfigurowania jest Language. Domyślnym językiem jest angielski; jednak IronTesseract obsługuje do 125 języków, a nawet pozwala na użycie wielu języków za pomocą metody UseMultipleLanguages. Więcej szczegółów znajdziesz tutaj.

Drugą właściwością, którą chcemy skonfigurować, jest klasa TesseractConfiguration. Z tą klasą możemy modyfikować sposób, w jaki silnik Tesseract skanuje dokument w poszukiwaniu potencjalnych bloków tekstu.

Po pierwsze, modyfikujemy język silnika Tesseract, przypisując język do OcrLanguage.EnglishBest. Ta odmiana łączy LSTM i OEM, które są strategiami rozpoznawania kształtów, używając OCR; łączenie tych dwóch strategii pozwala OCR na uzyskanie dokładniejszych wyników.
Następnie ustawiamy ReadBarCodes na false, aby uniknąć odczytywania kodów kreskowych podczas procesu OCR.

Dodatkowo dostosowujemy i precyzujemy znaki, które chcemy wydobyć, umieszczając na czarnej liście pewne znaki w dokumencie; w tym przykładzie umieszczamy na czarnej liście znaki, aby uniknąć wydobyćia tekstu zawierającego backticky, akcenty lub daszki. Na koniec ustawiamy TesseractVariables["tessedit_parallelize"] na false, aby tymczasowo wyłączyć przetwarzanie równoległe. Ostatnia opcja to naprawdę potężna funkcja, ponieważ komunikuje się bezpośrednio z silnikiem Tesseract. Tutaj znajdziesz kompletną listę TesseractVariables, które pozwalają programistom bardziej dostosować działanie silnika Tesseract podczas wykonywania OCR.

Poznaj więcej opcji konfiguracji IronTesseract