Latin Alphabet OCR in C# and .NET

This article was translated from English: Does it need improvement?
Translated
View the article in English

126 wiecej jeżyków

IronOCR to komponent oprogramowania C#, który pozwala programistom .NET na odczytywanie tekstu z obrazów i dokumentów PDF w 126 językach, w tym w alfabecie łacińskim.

Jest to zaawansowany fork Tesseracta, zbudowany wyłącznie dla deweloperów .NET i regularnie przewyższający inne silniki Tesseract pod względem szybkości i dokładności.

Zawartość IronOcr.Languages.LatinAlphabet

Ten pakiet zawiera 64 języki OCR dla .NET:

  • LatinAlphabet
  • LatinAlphabetBest
  • LatinAlphabetFast

Pobieranie

Pakiet językowy alfabetu łacińskiego [latine]

  • Pobierz jako Zip
  • Zainstaluj za pomocą NuGet

Instalacja

Pierwszą rzeczą, którą musimy zrobić, jest zainstalowanie naszego pakietu OCR do rozpoznawania alfabetu łacińskiego w projekcie .NET.

Install-Package IronOcr.Languages.LatinAlphabet

Przyklad kodu

Ten przykładowy kod C# odczytuje tekst alfabetu łacińskiego z obrazu lub dokumentu PDF.

// Install the IronOCR.languages.LatinAlphabet package first
using IronOcr;

var Ocr = new IronTesseract(); // Initialize IronTesseract instance

// Set the OCR language to LatinAlphabet
Ocr.Language = OcrLanguage.LatinAlphabet;

// Define the input image or PDF you want to read
using (var Input = new OcrInput(@"images\LatinAlphabet.png"))
{
    // Perform OCR reading on the input
    var Result = Ocr.Read(Input);

    // Extract the recognized text
    var AllText = Result.Text;

    // Output the recognized text
    Console.WriteLine(AllText);
}
// Install the IronOCR.languages.LatinAlphabet package first
using IronOcr;

var Ocr = new IronTesseract(); // Initialize IronTesseract instance

// Set the OCR language to LatinAlphabet
Ocr.Language = OcrLanguage.LatinAlphabet;

// Define the input image or PDF you want to read
using (var Input = new OcrInput(@"images\LatinAlphabet.png"))
{
    // Perform OCR reading on the input
    var Result = Ocr.Read(Input);

    // Extract the recognized text
    var AllText = Result.Text;

    // Output the recognized text
    Console.WriteLine(AllText);
}
' Install the IronOCR.languages.LatinAlphabet package first
Imports IronOcr

Private Ocr = New IronTesseract() ' Initialize IronTesseract instance

' Set the OCR language to LatinAlphabet
Ocr.Language = OcrLanguage.LatinAlphabet

' Define the input image or PDF you want to read
Using Input = New OcrInput("images\LatinAlphabet.png")
	' Perform OCR reading on the input
	Dim Result = Ocr.Read(Input)

	' Extract the recognized text
	Dim AllText = Result.Text

	' Output the recognized text
	Console.WriteLine(AllText)
End Using
$vbLabelText   $csharpLabel

Wyjaśnienie

  1. Inicjalizacja IronTesseract: Zainicjalizowana zostaje instancja IronTesseract, która zajmie się przetwarzaniem OCR.

  2. Ustawienie języka: Ustawiono język OCR na LatinAlphabet, który jest jednym z dostępnych języków w pakiecie IronOCR.

  3. Specyfikacja wejścia: Tworzony jest obiekt OcrInput, określający ścieżkę do obrazu lub PDF, z którego zostanie wyodrębniony tekst.

  4. Wykonanie OCR: Wywoływana jest metoda Read instancji IronTesseract, aby przetworzyć OcrInput. To zwraca obiekt Result zawierający wyodrębniony tekst.

  5. Ekstrakcja tekstu: Właściwość Text obiektu Result jest używana do dostępu do rozpoznanego tekstu.

  6. Wyjście: Rozpoznany tekst jest drukowany do konsoli do weryfikacji.

Upewnij się, że ścieżka pliku w OcrInput poprawnie wskazuje na twój plik obrazu lub PDF, aby uniknąć wyjątków braku pliku.