Latin Alphabet OCR in C# and .NET
IronOCR to komponent oprogramowania C#, który pozwala programistom .NET na odczytywanie tekstu z obrazów i dokumentów PDF w 126 językach, w tym w alfabecie łacińskim.
Jest to zaawansowany fork Tesseracta, zbudowany wyłącznie dla deweloperów .NET i regularnie przewyższający inne silniki Tesseract pod względem szybkości i dokładności.
Zawartość IronOcr.Languages.LatinAlphabet
Ten pakiet zawiera 64 języki OCR dla .NET:
- Alfabet łaciński
- Alfabet łacińskiBest
- Alfabet łacińskiFast
Pobieranie
Pakiet językowy alfabetu łacińskiego [latine]
Instalacja
Pierwszą rzeczą, którą musimy zrobić, jest zainstalowanie naszego pakietu OCR do rozpoznawania alfabetu łacińskiego w projekcie .NET.
Install-Package IronOcr.Languages.LatinAlphabet
Przyklad kodu
Ten przykładowy kod C# odczytuje tekst alfabetu łacińskiego z obrazu lub dokumentu PDF.
// Install the IronOCR.languages.LatinAlphabet package first
using IronOcr;
var Ocr = new IronTesseract(); // Initialize IronTesseract instance
// Set the OCR language to LatinAlphabet
Ocr.Language = OcrLanguage.LatinAlphabet;
// Define the input image or PDF you want to read
using (var Input = new OcrInput(@"images\LatinAlphabet.png"))
{
// Perform OCR reading on the input
var Result = Ocr.Read(Input);
// Extract the recognized text
var AllText = Result.Text;
// Output the recognized text
Console.WriteLine(AllText);
}
// Install the IronOCR.languages.LatinAlphabet package first
using IronOcr;
var Ocr = new IronTesseract(); // Initialize IronTesseract instance
// Set the OCR language to LatinAlphabet
Ocr.Language = OcrLanguage.LatinAlphabet;
// Define the input image or PDF you want to read
using (var Input = new OcrInput(@"images\LatinAlphabet.png"))
{
// Perform OCR reading on the input
var Result = Ocr.Read(Input);
// Extract the recognized text
var AllText = Result.Text;
// Output the recognized text
Console.WriteLine(AllText);
}
' Install the IronOCR.languages.LatinAlphabet package first
Imports IronOcr
Private Ocr = New IronTesseract() ' Initialize IronTesseract instance
' Set the OCR language to LatinAlphabet
Ocr.Language = OcrLanguage.LatinAlphabet
' Define the input image or PDF you want to read
Using Input = New OcrInput("images\LatinAlphabet.png")
' Perform OCR reading on the input
Dim Result = Ocr.Read(Input)
' Extract the recognized text
Dim AllText = Result.Text
' Output the recognized text
Console.WriteLine(AllText)
End Using
Wyjaśnienie
-
Inicjalizacja IronTesseract: Inicjalizowana jest instancja
IronTesseract, która będzie obsługiwać przetwarzanie OCR. -
Ustawienia językowe: Język OCR jest ustawiony na
LatinAlphabet, który jest jednym z języków dostępnych w pakiecie IronOCR. -
Specyfikacja danych wejściowych: Tworzony jest obiekt
OcrInput, określający ścieżkę do obrazu lub pliku PDF, z którego zostanie wyodrębniony tekst. -
Wykonanie OCR: Wywoływana jest metoda
ReadinstancjiIronTesseractw celu przetworzeniaOcrInput. Zwraca obiektResultzawierający wyodrębniony tekst. -
Pobieranie tekstu: Właściwość
TextobiektuResultsłuży do uzyskania dostępu do rozpoznanego tekstu. - Wyjście: Rozpoznany tekst jest drukowany do konsoli do weryfikacji.
Upewnij się, że ścieżka do pliku w OcrInput prawidłowo wskazuje na Twój obraz lub plik PDF, aby uniknąć wyjątków związanych z brakiem pliku.

