Latin Alphabet OCR in C# and .NET
IronOCR to komponent oprogramowania C#, który pozwala programistom .NET na odczytywanie tekstu z obrazów i dokumentów PDF w 126 językach, w tym w alfabecie łacińskim.
Jest to zaawansowany fork Tesseracta, zbudowany wyłącznie dla deweloperów .NET i regularnie przewyższający inne silniki Tesseract pod względem szybkości i dokładności.
Zawartość IronOcr.Languages.LatinAlphabet
Ten pakiet zawiera 64 języki OCR dla .NET:
- LatinAlphabet
- LatinAlphabetBest
- LatinAlphabetFast
Pobieranie
Pakiet językowy alfabetu łacińskiego [latine]
Instalacja
Pierwszą rzeczą, którą musimy zrobić, jest zainstalowanie naszego pakietu OCR do rozpoznawania alfabetu łacińskiego w projekcie .NET.
Install-Package IronOcr.Languages.LatinAlphabet
Przyklad kodu
Ten przykładowy kod C# odczytuje tekst alfabetu łacińskiego z obrazu lub dokumentu PDF.
// Install the IronOCR.languages.LatinAlphabet package first
using IronOcr;
var Ocr = new IronTesseract(); // Initialize IronTesseract instance
// Set the OCR language to LatinAlphabet
Ocr.Language = OcrLanguage.LatinAlphabet;
// Define the input image or PDF you want to read
using (var Input = new OcrInput(@"images\LatinAlphabet.png"))
{
// Perform OCR reading on the input
var Result = Ocr.Read(Input);
// Extract the recognized text
var AllText = Result.Text;
// Output the recognized text
Console.WriteLine(AllText);
}
// Install the IronOCR.languages.LatinAlphabet package first
using IronOcr;
var Ocr = new IronTesseract(); // Initialize IronTesseract instance
// Set the OCR language to LatinAlphabet
Ocr.Language = OcrLanguage.LatinAlphabet;
// Define the input image or PDF you want to read
using (var Input = new OcrInput(@"images\LatinAlphabet.png"))
{
// Perform OCR reading on the input
var Result = Ocr.Read(Input);
// Extract the recognized text
var AllText = Result.Text;
// Output the recognized text
Console.WriteLine(AllText);
}
' Install the IronOCR.languages.LatinAlphabet package first
Imports IronOcr
Private Ocr = New IronTesseract() ' Initialize IronTesseract instance
' Set the OCR language to LatinAlphabet
Ocr.Language = OcrLanguage.LatinAlphabet
' Define the input image or PDF you want to read
Using Input = New OcrInput("images\LatinAlphabet.png")
' Perform OCR reading on the input
Dim Result = Ocr.Read(Input)
' Extract the recognized text
Dim AllText = Result.Text
' Output the recognized text
Console.WriteLine(AllText)
End Using
Wyjaśnienie
-
Inicjalizacja IronTesseract: Zainicjalizowana zostaje instancja
IronTesseract, która zajmie się przetwarzaniem OCR. -
Ustawienie języka: Ustawiono język OCR na
LatinAlphabet, który jest jednym z dostępnych języków w pakiecie IronOCR. -
Specyfikacja wejścia: Tworzony jest obiekt
OcrInput, określający ścieżkę do obrazu lub PDF, z którego zostanie wyodrębniony tekst. -
Wykonanie OCR: Wywoływana jest metoda
ReadinstancjiIronTesseract, aby przetworzyćOcrInput. To zwraca obiektResultzawierający wyodrębniony tekst. -
Ekstrakcja tekstu: Właściwość
TextobiektuResultjest używana do dostępu do rozpoznanego tekstu. - Wyjście: Rozpoznany tekst jest drukowany do konsoli do weryfikacji.
Upewnij się, że ścieżka pliku w OcrInput poprawnie wskazuje na twój plik obrazu lub PDF, aby uniknąć wyjątków braku pliku.

