Jak stworzyć demo oprogramowania OCR w C#
Optyczne rozpoznawanie znaków (OCR) to technologia, która przekształca różne formaty dokumentów, w tym zeskanowane dokumenty papierowe, pliki PDF, pliki cyfrowe lub zdjęcia wydrukowanego tekstu wykonane aparatem cyfrowym, w edytowalne i przeszukiwalne dane tekstowe zakodowane maszynowo.
IronOCR to doskonała biblioteka silnika OCR, która oferuje programistom zaawansowane funkcje OCR. W tym artykułe omówimy, jak przeprowadzić rozpoznawanie optyczne (OCR) przy użyciu IronOCR, podając przykłady kodu z demonstracją oprogramowania OCR.
Czym jest IronOCR?
IronOCR to potężna biblioteka .NET zaprojektowana w celu ułatwienia optycznego rozpoznawania znaków (OCR) w aplikacjach C# i VB.NET. Wykorzystując zaawansowane algorytmy i techniki uczenia maszynowego, IronOCR może dokładnie wyodrębniać tekst i treść ze skanowanych plików PDF, obrazów i plików PDF, ułatwiając programowe przetwarzanie, wyszukiwanie i analizę takich plików.
Dzięki prostemu API i rozbudowanym funkcjom programiści mogą płynnie zintegrować funkcje OCR ze swoimi aplikacjami, aby zautomatyzować ekstrakcję danych, przetwarzanie dokumentów, wprowadzanie danych i zarządzanie treścią. Niezależnie od tego, czy zajmujesz się biznesem, fakturami, raportami, automatycznym pozyskiwaniem danych, plikami PDF z funkcją wyszukiwania czy innymi dokumentami zawierającymi dużo tekstu, IronOCR oferuje niezawodne rozwiązanie pozwalające skutecznie sprostać wymaganiom związanym z OCR.
Pierwsze kroki z IronOCR
Zanim przejdziesz do przykładów kodu, musisz zainstalować IronOCR za pomocą menedżera pakietów NuGet. Możesz zainstalować IronOCR, uruchamiając następujące polecenie w konsoli menedżera pakietów:
Install-Package IronOcr
Wykonywanie OCR za pomocą IronOCR
Rozpoznawanie tekstu podstawowego
Aby wykonać podstawowe rozpoznawanie tekstu za pomocą IronOCR, można użyć następującego fragmentu kodu:
using IronOcr;
using System;
class Program
{
static void Main()
{
var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput("ocr.png"))
{
var ocrResult = ocrTesseract.Read(ocrInput);
string recognizedText = ocrResult.Text;
Console.WriteLine(recognizedText);
}
}
}
using IronOcr;
using System;
class Program
{
static void Main()
{
var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput("ocr.png"))
{
var ocrResult = ocrTesseract.Read(ocrInput);
string recognizedText = ocrResult.Text;
Console.WriteLine(recognizedText);
}
}
}
Imports IronOcr
Imports System
Friend Class Program
Shared Sub Main()
Dim ocrTesseract = New IronTesseract()
Using ocrInput As New OcrInput("ocr.png")
Dim ocrResult = ocrTesseract.Read(ocrInput)
Dim recognizedText As String = ocrResult.Text
Console.WriteLine(recognizedText)
End Using
End Sub
End Class
Ten kod wykorzystuje IronOCR do optycznego rozpoznawania znaków (OCR) w pliku graficznym o nazwie "ocr.png". Inicjuje obiekt IronTesseract i wczytuje warstwę tekstową pliku obrazu do obiektu OcrInput.
Wynik OCR jest następnie pobierany jako recognizedText i wyświetlany w konsoli.
Wynik
- LOGO SHOP
- LOREM IPSUM
- DOLOR SITAMET CONSECTETUR
- ADIPISCING ELIT
- 1 LOREM IPSUM $3.20
- 2 ORNARE MALESUADA $9.50
- 3 PORTA FERMENTUM $5.90
- 4 SODALES ARCU $6.00
- 5 ELEIFEND $9.00
- 6 SEMNISIMASSA $0.50
- 7 DUIS FAMES DIS $7.60
- 8 FACILISIRISUS $810
- TOTAL AMOUNT $49.80
- CASH $50.00
Zaawansowane opcje OCR
IronOCR oferuje różne opcje, które pozwalają dostosować proces OCR do posiadanych plików graficznych i wymagań. Na przykład można określić język OCR, dostosować ustawienia przetwarzania wstępnego obrazu lub włączyć czyszczenie tekstu. Oto przykład ilustrujący niektóre z tych zaawansowanych opcji:
using IronOcr;
using System;
class Program
{
static void Main()
{
var ocr = new IronTesseract();
using var ocrInput = new OcrInput();
ocrInput.LoadImage(@"images\image.png");
// Set OCR language to English
ocr.Language = OcrLanguage.English;
// Enable text cleaning and enhance the resolution
ocrInput.DeNoise();
ocrInput.EnhanceResolution(225);
var result = ocr.Read(ocrInput);
if (!string.IsNullOrEmpty(result.Text))
{
Console.WriteLine($"Recognized Text: {result.Text}");
}
}
}
using IronOcr;
using System;
class Program
{
static void Main()
{
var ocr = new IronTesseract();
using var ocrInput = new OcrInput();
ocrInput.LoadImage(@"images\image.png");
// Set OCR language to English
ocr.Language = OcrLanguage.English;
// Enable text cleaning and enhance the resolution
ocrInput.DeNoise();
ocrInput.EnhanceResolution(225);
var result = ocr.Read(ocrInput);
if (!string.IsNullOrEmpty(result.Text))
{
Console.WriteLine($"Recognized Text: {result.Text}");
}
}
}
Imports IronOcr
Imports System
Friend Class Program
Shared Sub Main()
Dim ocr = New IronTesseract()
Dim ocrInput As New OcrInput()
ocrInput.LoadImage("images\image.png")
' Set OCR language to English
ocr.Language = OcrLanguage.English
' Enable text cleaning and enhance the resolution
ocrInput.DeNoise()
ocrInput.EnhanceResolution(225)
Dim result = ocr.Read(ocrInput)
If Not String.IsNullOrEmpty(result.Text) Then
Console.WriteLine($"Recognized Text: {result.Text}")
End If
End Sub
End Class
Kod wykorzystuje bibliotekę IronOCR do przeprowadzenia rozpoznawania optycznego (OCR) pliku graficznego "image.png" znajdującego się w folderze "images". Ustawia język OCR na angielski, usuwa szumy z obrazu i poprawia jego rozdzielczość. Rozpoznany tekst z obrazu jest wyodrębniany, a następnie drukowany w konsoli.

Odczytywanie BarCode
IronOCR obsługuje również odczyt kodów kreskowych, co pozwala na tworzenie oprogramowania do wyodrębniania informacji z kodów kreskowych z obrazów. Oto przykład kodu pokazujący, jak odczytać BARCODE za pomocą IronOCR:
using IronOcr;
using System;
class Program
{
static void Main()
{
var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
using var ocrInput = new OcrInput();
ocrInput.LoadImage(@"images\imageWithBarcode.png");
var ocrResult = ocrTesseract.Read(ocrInput);
foreach (var barcode in ocrResult.Barcodes)
{
Console.WriteLine(barcode.Value);
}
}
}
using IronOcr;
using System;
class Program
{
static void Main()
{
var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
using var ocrInput = new OcrInput();
ocrInput.LoadImage(@"images\imageWithBarcode.png");
var ocrResult = ocrTesseract.Read(ocrInput);
foreach (var barcode in ocrResult.Barcodes)
{
Console.WriteLine(barcode.Value);
}
}
}
Imports IronOcr
Imports System
Friend Class Program
Shared Sub Main()
Dim ocrTesseract = New IronTesseract()
ocrTesseract.Configuration.ReadBarCodes = True
Dim ocrInput As New OcrInput()
ocrInput.LoadImage("images\imageWithBarcode.png")
Dim ocrResult = ocrTesseract.Read(ocrInput)
For Each barcode In ocrResult.Barcodes
Console.WriteLine(barcode.Value)
Next barcode
End Sub
End Class
Kod wykorzystuje IronOCR do wykrywania i odczytywania BarCodes z pliku graficznego "imageWithBarCode.png" znajdującego się w folderze "images". Konfiguruje IronOCR w celu umożliwienia odczytu BARCODE poprzez ustawienie ReadBarCodes na true. Wykryte wartości BarCodes są następnie drukowane w konsoli.

Ekstrakcja tekstu z plików PDF
IronOCR może również wyodrębniać tekst z plików PDF i zeskanowanych dokumentów. Oto przykład kodu pokazujący, jak wyodrębnić tekst z pliku PDF za pomocą IronOCR:
using IronOcr;
using System;
class Program
{
static void Main()
{
var ocrTesseract = new IronTesseract();
using var ocrInput = new OcrInput();
// OCR entire document
ocrInput.LoadPdf("Email_Report.pdf");
// Alternatively OCR selected page numbers
int[] pages = { 1, 2, 3, 4, 5 };
ocrInput.LoadPdfPages("example.pdf", pages, Password: "password");
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);
}
}
using IronOcr;
using System;
class Program
{
static void Main()
{
var ocrTesseract = new IronTesseract();
using var ocrInput = new OcrInput();
// OCR entire document
ocrInput.LoadPdf("Email_Report.pdf");
// Alternatively OCR selected page numbers
int[] pages = { 1, 2, 3, 4, 5 };
ocrInput.LoadPdfPages("example.pdf", pages, Password: "password");
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);
}
}
Imports IronOcr
Imports System
Friend Class Program
Shared Sub Main()
Dim ocrTesseract = New IronTesseract()
Dim ocrInput As New OcrInput()
' OCR entire document
ocrInput.LoadPdf("Email_Report.pdf")
' Alternatively OCR selected page numbers
Dim pages() As Integer = { 1, 2, 3, 4, 5 }
ocrInput.LoadPdfPages("example.pdf", pages, Password:= "password")
Dim ocrResult = ocrTesseract.Read(ocrInput)
Console.WriteLine(ocrResult.Text)
End Sub
End Class
Kod wykorzystuje bibliotekę IronOCR do przetwarzania OCR dokumentu PDF o nazwie "Email_Report.pdf". Może wykonać OCR całego dokumentu przy użyciu LoadPdf lub określonych stron z pliku "example.PDF" przy użyciu LoadPdfPages z hasłem. Tekst rozpoznany w wyniku operacji OCR jest wyświetlany w konsoli.

Wnioski
IronOCR to potężna biblioteka .NET, która oferuje zaawansowane funkcje oprogramowania OCR, ułatwiając programistom wykonywanie zadań OCR w ich aplikacjach. W tym artykułe omówiliśmy, jak przeprowadzić podstawowe i zaawansowane demo oprogramowania OCR przy użyciu IronOCR wraz z przykładami kodu.
Jeśli pracujesz nad projektem .NET i chcesz zintegrować funkcję OCR, IronOCR jest zdecydowanie wart rozważenia przy wyborze różnych silników OCR. Łatwość obsługi, szybkość, elastyczność i obszerna dokumentacja sprawiają, że jest to popularny wybór wśród programistów do zadań związanych z automatyzacją OCR.
Warto więc wypróbować IronOCR i przekonać się, jak może ono uprościć proces tworzenia własnych projektów OCR. Może to być najlepszy silnik OCR dla Państwa projektów.
IronOCR oferuje bezpłatną licencję probną, a cena zaczyna się od $799 USD, co pozwala na dalsze maksymalne wykorzystanie IronOCR w swoich projektach.
Aby dowiedzieć się więcej o IronOCR, kliknij tutaj.
Często Zadawane Pytania
Jak wykonać OCR w języku C#?
Możesz wykonać OCR w języku C# przy użyciu biblioteki IronOCR. Najpierw zainstaluj ją za pomocą menedżera pakietów NuGet, używając polecenia Install-Package IronOcr. Następnie użyj obiektu IronTesseract do odczytania tekstu z obrazów lub plików PDF i przekształcenia go w tekst edytowalny.
Jakie kroki trzeba wykonać, żeby wyodrębnić tekst z obrazu w języku C#?
Aby wyodrębnić tekst z obrazu w języku C#, należy użyć biblioteki IronOCR, tworząc instancję obiektu IronTesseract. Należy załadować obraz, np. „ocr.png”, i wywołać metodę Read(), aby przetworzyć obraz i wyodrębnić tekst.
Czy mogę dostosować proces OCR za pomocą IronOCR?
Tak, IronOCR pozwala dostosować proces OCR poprzez ustawienie opcji takich jak język OCR, włączenie przetwarzania wstępnego obrazu w celu redukcji szumów oraz dostosowanie rozdzielczości w celu poprawy dokładności.
Czy za pomocą IronOCR można odczytywać kody kreskowe BarCode?
Tak, IronOCR obsługuje odczyt kodów kreskowych. Można go skonfigurować tak, aby wykrywał i wyodrębniał informacje z kodów kreskowych z obrazów, włączając funkcję odczytu kodów kreskowych w ustawieniach OCR.
Jak wyodrębnić tekst z pliku PDF przy użyciu języka C#?
Korzystając z IronOCR, można wyodrębnić tekst z plików PDF w języku C#. Można zdecydować się na rozpoznanie optyczne (OCR) całego dokumentu lub określonych stron, ładując plik PDF do IronTesseract i używając metody Read() w celu wyodrębnienia tekstu.
Dlaczego IronOCR jest polecanym wyborem dla programistów?
IronOCR jest polecany programistom ze względu na kompleksowe funkcje OCR, łatwość obsługi, szybkie przetwarzanie i elastyczność. Integruje się płynnie z projektami .NET, umożliwiając wydajną automatyzację zadań OCR.
Czy dostępne są opcje licencyjne dla IronOCR?
IronOCR oferuje różne opcje licencyjne, zaczynając od bezpłatnej wersji próbnej. Programiści mogą wybierać spośród różnych licencji, aby nadal korzystać z pełnych możliwości IronOCR w swoich aplikacjach.
Gdzie mogę znaleźć przykłady kodu wykorzystującego IronOCR?
Przykłady kodu wykorzystującego IronOCR można znaleźć w artykule „OCR Software Demo in C# (Developer Tutorial)”. Przykłady pokazują podstawowe rozpoznawanie tekstu, zaawansowane opcje OCR oraz odczytywanie BarCode’ów.



