Latin Alphabet OCR in C# and .NET

This article was translated from English: Does it need improvement?
Translated
View the article in English

126 wiecej jeżyków

IronOCR to komponent oprogramowania C#, który pozwala programistom .NET na odczytywanie tekstu z obrazów i dokumentów PDF w 126 językach, w tym w alfabecie łacińskim.

Jest to zaawansowany fork Tesseracta, zbudowany wyłącznie dla deweloperów .NET i regularnie przewyższający inne silniki Tesseract pod względem szybkości i dokładności.

Zawartość IronOcr.Languages.LatinAlphabet

Ten pakiet zawiera 64 języki OCR dla .NET:

  • Alfabet łaciński
  • Alfabet łacińskiBest
  • Alfabet łacińskiFast

Pobieranie

Pakiet językowy alfabetu łacińskiego [latine]

Instalacja

Pierwszą rzeczą, którą musimy zrobić, jest zainstalowanie naszego pakietu OCR do rozpoznawania alfabetu łacińskiego w projekcie .NET.

Install-Package IronOcr.Languages.LatinAlphabet

Przyklad kodu

Ten przykładowy kod C# odczytuje tekst alfabetu łacińskiego z obrazu lub dokumentu PDF.

// Install the IronOCR.languages.LatinAlphabet package first
using IronOcr;

var Ocr = new IronTesseract(); // Initialize IronTesseract instance

// Set the OCR language to LatinAlphabet
Ocr.Language = OcrLanguage.LatinAlphabet;

// Define the input image or PDF you want to read
using (var Input = new OcrInput(@"images\LatinAlphabet.png"))
{
    // Perform OCR reading on the input
    var Result = Ocr.Read(Input);

    // Extract the recognized text
    var AllText = Result.Text;

    // Output the recognized text
    Console.WriteLine(AllText);
}
// Install the IronOCR.languages.LatinAlphabet package first
using IronOcr;

var Ocr = new IronTesseract(); // Initialize IronTesseract instance

// Set the OCR language to LatinAlphabet
Ocr.Language = OcrLanguage.LatinAlphabet;

// Define the input image or PDF you want to read
using (var Input = new OcrInput(@"images\LatinAlphabet.png"))
{
    // Perform OCR reading on the input
    var Result = Ocr.Read(Input);

    // Extract the recognized text
    var AllText = Result.Text;

    // Output the recognized text
    Console.WriteLine(AllText);
}
' Install the IronOCR.languages.LatinAlphabet package first
Imports IronOcr

Private Ocr = New IronTesseract() ' Initialize IronTesseract instance

' Set the OCR language to LatinAlphabet
Ocr.Language = OcrLanguage.LatinAlphabet

' Define the input image or PDF you want to read
Using Input = New OcrInput("images\LatinAlphabet.png")
	' Perform OCR reading on the input
	Dim Result = Ocr.Read(Input)

	' Extract the recognized text
	Dim AllText = Result.Text

	' Output the recognized text
	Console.WriteLine(AllText)
End Using
$vbLabelText   $csharpLabel

Wyjaśnienie

  1. Inicjalizacja IronTesseract: Inicjalizowana jest instancja IronTesseract, która będzie obsługiwać przetwarzanie OCR.

  2. Ustawienia językowe: Język OCR jest ustawiony na LatinAlphabet, który jest jednym z języków dostępnych w pakiecie IronOCR.

  3. Specyfikacja danych wejściowych: Tworzony jest obiekt OcrInput, określający ścieżkę do obrazu lub pliku PDF, z którego zostanie wyodrębniony tekst.

  4. Wykonanie OCR: Wywoływana jest metoda Read instancji IronTesseract w celu przetworzenia OcrInput. Zwraca obiekt Result zawierający wyodrębniony tekst.

  5. Pobieranie tekstu: Właściwość Text obiektu Result służy do uzyskania dostępu do rozpoznanego tekstu.

  6. Wyjście: Rozpoznany tekst jest drukowany do konsoli do weryfikacji.

Upewnij się, że ścieżka do pliku w OcrInput prawidłowo wskazuje na Twój obraz lub plik PDF, aby uniknąć wyjątków związanych z brakiem pliku.