Porównanie pomiędzy IronOCR a Abbyy Finereader
W tym artykułe porównamy dwie popularne biblioteki i aplikacje do wykorzystania OCR w dokumentach PDF i obrazach. Są to:
- Oprogramowanie ABBYY FineReader PDF
- IronOCR
Jak korzystać z Abbyy Finereader SDK w języku C#
- Zainstaluj Abbyy Finereader SDK, aby przeprowadzić OCR w języku C#
- Konwertuj obrazy i dokumenty PDF do formatu WORD, przeszukiwalnego PDF, CSV i tekstu
- Tworzenie edytowalnych plików PDF z plików PDF
- Obsługa formatów PDF/A-1 do PDF/A-3 oraz PDF/UA
- Wykorzystaj najnowszą technologię OCR opartą na sztucznej inteligencji do digitalizacji, wyszukiwania, edycji, ochrony, udostępniania i współpracy nad wszelkiego rodzaju dokumentami
1. Wprowadzenie
1.1 ABBYY FineReader PDF — Wprowadzenie i funkcje
ABBYY FineReader PDF to aplikacja do optycznego rozpoznawania znaków (OCR) stworzona przez firmę ABBYY. Pozwala nam to konwertować dokumenty graficzne (zdjęcia, skany, pliki PDF), a zrzuty ekranu można konwertować do edytowalnych formatów plików, takich jak Microsoft WORD, Microsoft Excel, Microsoft PowerPoint, Rich Text Format, HTML, PDF/A, PDF z możliwością wyszukiwania, CSV i tekst (zwykły tekst).
ABBYY FineReader to aplikacja komputerowa dostępna zarówno dla systemów Windows, Linux, jak i macOS. Umożliwia również tworzenie edytowalnych formatów plików PDF. Możemy również otwierać pliki PDF, tak jak w programie Adobe Acrobat. ABBYY FineReader integruje zeskanowane dokumenty z cyfrowymi procesami roboczymi.
Zarządzaj dokumentami i uzupełniaj je w prosty i wydajny sposób, aby zaoszczędzić czas i wysiłek. Pracuj z każdym dokumentem w ten sam metodyczny sposób, niezależnie od tego, czy został on utworzony cyfrowo, czy przekonwertowany z wersji papierowej. Możesz zmieniać tekst, tabele i cały układ pliku PDF bez konieczności jego wcześniejszej konwersji.
ABBYY FineReader PDF może tworzyć pliki PDF z ponad 25 różnych formatów plików, bezpośrednio z dokumentów papierowych lub poprzez drukowanie na drukarce PDF z praktycznie każdej aplikacji. Formaty PDF/A-1 do PDF/A-3 są obsługiwane w celu długoterminowej archiwizacji, a format PDF/UA zapewnia dostępność treści podczas korzystania z oprogramowania wspomagającego, takiego jak czytniki ekranu. Pozwala to również profesjonalistom na maksymalizację wydajności w cyfrowym środowisku pracy.
Twórz i aktualizuj własne interaktywne formularze PDF za pomocą programu ABBYY FineReader, aby skutecznie gromadzić informacje i standaryzować dokumenty. Twórz formularze, łącząc interaktywne pola różnych typów, ustawiając działania, edytując istniejące formularze PDF lub dodając elementy formularza do zwykłego pliku PDF.
ABBYY FineReader może natychmiast konwertować dokumenty papierowe, skany i zeskanowane pliki PDF na pliki PDF z możliwością wyszukiwania, umożliwiając odzyskiwanie dokumentów z archiwów cyfrowych i uzyskiwanie dostępu do zawartych w nich informacji. FineReader PDF obsługuje wszystkie poziomy zgodności i warianty formatu PDF/A, będącego standardem branżowym w zakresie długoterminowej archiwizacji, od PDF/A-1 do PDF/A-3.
Najnowsza technologia OCR firmy ABBYY oparta na sztucznej inteligencji, FineReader PDF, ułatwia digitalizację, wyszukiwanie, edycję, ochronę, udostępnianie i współpracę nad wszelkiego rodzaju dokumentami w ramach tego samego przepływu pracy. FineReader oferuje również funkcję porównywania dokumentów, która pomaga nam porównać dokumenty oryginalne, a także przekonwertowane pliki PDF i pliki graficzne.
1.2 IronOCR — Wprowadzenie i funkcje
IronOCR dostarcza oprogramowanie dla inżynierów, którzy używają IronOCR for .NET do odczytywania treści tekstowych ze zdjęć i plików PDF w aplikacjach .NET i na stronach internetowych. Skanuje zdjęcia w poszukiwaniu tekstu i BarCodes oraz obsługuje wiele języków z całego świata; Następnie może generować dane wyjściowe w postaci zwykłego tekstu lub danych ustrukturyzowanych. Biblioteka OCR firmy Iron Software może być używana w aplikacjach .NET typu MVC, internetowych, konsolowych i desktopowych. W przypadku wdrożeń komercyjnych licencjonowanie odbywa się przy bezpośredniej pomocy zespołu programistów.
- Korzystając z najnowszego silnika Tesseract 5, IronOCR odczytuje tekst, BARCODE i kody QR z dowolnego obrazu lub pliku w formacie PDF. Ta biblioteka szybko dodaje funkcję OCR do aplikacji desktopowych, konsolowych i internetowych.
- IronOCR obsługuje 125 języków międzynarodowych. Obsługuje również niestandardowe listy języków i słów.
- IronOCR potrafi odczytywać ponad 20 formatów kodów kreskowych oraz kody QR.
- IronOCR obsługuje wielostronicowe formaty obrazów GIF i TIFF.
- IronOCR zapewnia korekcję skanów o niskiej jakości.
- IronOCR obsługuje wielowątkowość — wykonuje jeden lub więcej procesów jednocześnie.
- IronOCR może zapewnić wyprowadzenie danych strukturalnych dla stron, akapitów, wierszy, słów, znaków itp.
- IronOCR obsługuje różne systemy operacyjne, takie jak Windows, Linux, macOS itp.
2. Tworzenie nowego projektu w Visual Studio
Otwórz oprogramowanie Visual Studio i przejdź do "menu Plik". Wybierz "nowy projekt", a następnie "Aplikacja konsolowa".
Wpisz nazwę projektu i wybierz ścieżkę do pliku w odpowiednim polu tekstowym. Następnie kliknij przycisk "Utwórz" i wybierz wymagańy .NET Framework, tak jak na poniższym zrzucie ekranu.
Projekt Visual Studio wygeneruje teraz strukturę dla wybranej aplikacji. Jeśli wybrałeś konsolę, system Windows i aplikację internetową, otworzy się teraz plik Program.cs, w którym możesz wprowadzić kod oraz skompilować i uruchomić aplikację.
Następnie możemy dodać bibliotekę, aby przetestować kod.
3. Zainstaluj
3.1 Zainstaluj program ABBYY FineReader PDF
Program ABBYY FineReader można pobrać tutaj.
Powyższy obrazek pokazuje, że dostępne są dwie wersje, Individual i Business, które można pobrać zgodnie z własnymi wymaganiami. Wybierz opcję "pobierz bezpłatną wersję próbną". Zostaniesz przekierowany do formularza, jak na poniższym obrazku:
Będziemy musieli wypełnić formularz, aby uzyskać lokalizację pliku EXE. Kliknij opcję pobierania, aby pobrać plik.
Po zakończeniu pobierania pliku możemy dwukrotnie kliknąć plik EXE, aby rozpocząć instalację. Po zakończeniu wyświetli się komunikat w oknie pop-up, a narzędzie będzie gotowe do użycia.
3.2 Zainstaluj IronOCR
Bibliotekę IronOCR można pobrać i zainstalować na cztery sposoby.
Są to:
- Korzystanie z programu Visual Studio
- Korzystanie z wiersza poleceń programu Visual Studio
- Bezpośrednie pobranie ze strony NuGet
- Bezpośrednie pobranie ze strony internetowej IronPDF
3.2.1 Korzystanie z programu Visual Studio
Oprogramowanie Visual Studio udostępnia opcję NuGet Package Manager, która pozwala zainstalować pakiet bezpośrednio w rozwiązaniu. Poniższy zrzut ekranu pokazuje, jak otworzyć menedżera pakietów NuGet.
Zawiera pole wyszukiwania, które wyświetla listę pakietów ze strony NuGet. W menedżerze pakietów musimy wyszukać słowo kluczowe IronOCR, tak jak na poniższym zrzucie ekranu:
Z powyższego obrazka uzyskamy listę powiązanych pozycji wyszukiwania. Musimy wybrać odpowiednią opcję, aby zainstalować pakiet w rozwiązaniu.
3.2.2 Korzystanie z wiersza poleceń programu Visual Studio
W programie Visual Studio przejdź do menu Narzędzia -> Menedżer pakietów NuGet -> Konsola menedżera pakietów
Wprowadź następujący wiersz w zakładce Konsola menedżera pakietów:
Install-Package IronOcr
To polecenie spowoduje pobranie i zainstalowanie pakietu w bieżącym projekcie, po czym będzie on gotowy do użycia.
3.2.3 Bezpośrednie pobranie ze strony NuGet
Trzecim sposobem jest pobranie pakietu NuGet bezpośrednio ze strony internetowej.
- Navigate to the Link.
- Wybierz opcję pakietu do pobrania z menu po prawej stronie.
- Kliknij dwukrotnie pobrany pakiet. Zostanie zainstalowany automatycznie.
- Następnie przeładuj rozwiązanie i zacznij z niego korzystać w projekcie.
3.2.4 Bezpośrednie pobranie ze strony internetowej IronOCR
Click the link here to download the latest package direct from the website. Once downloaded, follow the steps below to add the package to the project.
- Kliknij prawym przyciskiem myszy projekt w oknie rozwiązania.
- Następnie wybierz opcję "Dodaj odwołanie" i przejdź do lokalizacji pobranego odwołania.
- Następnie kliknij OK, aby dodać odwołanie.
4. Obraz OCR
Zarówno IronOCR, jak i ABBYY FineReader posiadają technologię OCR, która przekształca obraz w tekst.
4.1 Korzystanie z programu ABBYY FineReader PDF
Następnie otwórz aplikację ABBYY FineReader PDF, która uruchomi się z wieloma opcjami, jak na poniższym obrazku.
Następnie wybierz opcję "Otwórz" z opcji edytora OCR. Spowoduje to wyświetlenie opcji wyboru plików graficznych:
Po wybraniu pliku automatycznie rozpocznie się skanowanie obrazu w celu przekształcenia go w edytowalny tekst, a następnie wynik zostanie wyświetlony w oknie, tak jak na poniższym zrzucie ekranu:
Powyższy obrazek przedstawia obraz źródłowy przekształcony w edytowalny tekst. Jednak wynik nie jest zbyt dokładny. Niektóre cyfry nie są rozpoznawane przez aplikację ABBYY FineReader PDF. Widać to wyraźnie w oknach porównawczych — po lewej stronie znajduje się obraz źródłowy, a po prawej tekst przekonwertowany przez OCR.
4.2 Korzystanie z IronOCR
// Create an instance of IronTesseract for OCR operations
var Ocr = new IronTesseract();
// Configure OCR language and Tesseract version
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
// Create a new OcrInput object to manage input images
using (var Input = new OcrInput())
{
// Add an image to the input for processing
Input.AddImage(@"3.png");
// Perform OCR to read text from the image
var Result = Ocr.Read(Input);
// Output the extracted text to the console
Console.WriteLine(Result.Text);
Console.ReadKey();
}
// Create an instance of IronTesseract for OCR operations
var Ocr = new IronTesseract();
// Configure OCR language and Tesseract version
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
// Create a new OcrInput object to manage input images
using (var Input = new OcrInput())
{
// Add an image to the input for processing
Input.AddImage(@"3.png");
// Perform OCR to read text from the image
var Result = Ocr.Read(Input);
// Output the extracted text to the console
Console.WriteLine(Result.Text);
Console.ReadKey();
}
' Create an instance of IronTesseract for OCR operations
Dim Ocr = New IronTesseract()
' Configure OCR language and Tesseract version
Ocr.Language = OcrLanguage.EnglishBest
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5
' Create a new OcrInput object to manage input images
Using Input = New OcrInput()
' Add an image to the input for processing
Input.AddImage("3.png")
' Perform OCR to read text from the image
Dim Result = Ocr.Read(Input)
' Output the extracted text to the console
Console.WriteLine(Result.Text)
Console.ReadKey()
End Using
Powyżej przedstawiono API Tesseract 5, które pozwala nam konwertować pliki graficzne na tekst. W powyższym fragmencie kodu tworzymy instancję IronTesseract. Używamy również obiektu OcrInput, który pozwoli nam dodać jeden lub więcej plików graficznych. Podczas korzystania z metody obiektu OcrInput AddImage musimy podać ścieżkę do dostępnego obrazu w kodzie. Można dodać dowolną liczbę obrazów. Funkcja Read w obiekcie IronTesseract, który skonstruowaliśmy wcześniej, może zostać wykorzystana do przeprowadzenia OCR poprzez analizę pliku obrazu i wyodrębnienie wyniku do wyniku OCR. Potrafi wyodrębniać tekst z obrazów i konwertować go na ciąg znaków.
Możemy również użyć Tesseract do dodania obrazów wieloklatkowych. AddMultiFrameTiff to inna metoda tej operacji. Biblioteka Tesseract odczytuje każdą klatkę obrazu, a każda klatka jest traktowana jako oddzielna strona. Proces odczyta pierwszą klatkę obrazu, a następnie przejdzie do następnej i tak dalej, aż wszystkie klatki obrazu zostaną zeskanowane. Ta metoda obsługuje wyłącznie format obrazu TIFF.
Powyższy obrazek przedstawia wynik działania IronOCR, który jest dokładny i pokazuje dane poprawnie przekonwertowane na edytowalny tekst.
5. Plik PDF z rozpoznaniem optycznym (OCR)
IronOCR i ABBYY FineReader PDF pomagają przekonwertować plik PDF na edytowalny tekst. ABBYY FineReader PDF udostępnia użytkownikowi listę opcji, takich jak zapisanie strony, edycja obrazu, rozpoznanie strony itp. Oferuje również opcje zapisywania w formatach txt, dokument, HTML itp. IronOCR pozwala również na zapisanie przekonwertowanych plików OCR w formatach HTML, txt, pdf itp.
5.1 Korzystanie z programu ABBYY FineReader PDF
Otwórz oprogramowanie ABBYY FineReader PDF. Spowoduje to otwarcie strony podobnej do tej na poniższym obrazku, oferującej wiele opcji.
Następnie wybierz opcję "Otwórz" z opcji edytora OCR. Spowoduje to wyświetlenie opcji wyboru obrazu/pliku PDF. Możemy wybrać plik PDF lub obraz, albo oba pliki.
Po wybraniu pliku kliknij przycisk OK. Program automatycznie rozpocznie skanowanie obrazu do postaci edytowalnego tekstu i wyświetli wynik w oknie, jak na poniższym zrzucie ekranu.
Powyższy obrazek przedstawia plik PDF źródłowy przekonwertowany na edytowalny tekst. Jednak wynik nie jest całkowicie dokładny. Niektóre liczby nie są rozpoznawane przez aplikację ABBYY FineReader PDF. Widać to wyraźnie w oknach porównawczych — po lewej stronie znajduje się plik PDF źródłowy, a po prawej stronie tekst przekonwertowany za pomocą OCR.
5.2 Korzystanie z IronOCR
Możemy również używać OCRInput do zarządzania plikami PDF. Każda strona dokumentów zostanie odczytana przez klasę Iron Tesseract. Następnie tekst zostanie wyodrębniony ze stron. Możemy również otwierać dokumenty chronione za pomocą drugiej funkcji o nazwie AddPdf, która pozwala nam dodawać pliki PDF do naszej listy dokumentów (hasło, jeśli są one chronione). Poniższy kod pokazuje, jak otworzyć dokument PDF chroniony hasłem:
// Create an instance of IronTesseract for OCR operations
var Ocr = new IronTesseract();
// Create OcrInput to manage input PDFs
using (var Input = new OcrInput())
{
// Add a password-protected PDF to the input
Input.AddPdf("example.pdf", "password");
// Perform OCR to read text from the PDF
var Result = Ocr.Read(Input);
// Output the extracted text to the console
Console.WriteLine(Result.Text);
}
// Create an instance of IronTesseract for OCR operations
var Ocr = new IronTesseract();
// Create OcrInput to manage input PDFs
using (var Input = new OcrInput())
{
// Add a password-protected PDF to the input
Input.AddPdf("example.pdf", "password");
// Perform OCR to read text from the PDF
var Result = Ocr.Read(Input);
// Output the extracted text to the console
Console.WriteLine(Result.Text);
}
' Create an instance of IronTesseract for OCR operations
Dim Ocr = New IronTesseract()
' Create OcrInput to manage input PDFs
Using Input = New OcrInput()
' Add a password-protected PDF to the input
Input.AddPdf("example.pdf", "password")
' Perform OCR to read text from the PDF
Dim Result = Ocr.Read(Input)
' Output the extracted text to the console
Console.WriteLine(Result.Text)
End Using
Iron Tesseract oferuje również następujące metody:
AddPdfPageAddPdfPages
Możemy odczytywać i wyodrębniać treść z pojedynczej strony dokumentu PDF za pomocą AddPdfPage. Wystarczy podać numer strony, z której chcemy wyodrębnić tekst. AddPdfPages pozwala nam wyodrębnić tekst z wielu wskazanych przez nas stron. W IEnumerable<int> wystarczy po prostu podać liczbę stron. Musimy również uwzględnić lokalizację pliku oraz jego rozszerzenie. Pokazuje to poniższy przykład kodu:
// Define numbers representing pages to extract from the PDF
IEnumerable<int> numbers = new List<int> { 2, 8, 10 };
// Create an instance of IronTesseract for OCR operations
var Ocr = new IronTesseract();
// Create OcrInput to manage input PDFs
using (var Input = new OcrInput())
{
// Add a specific page from PDF for OCR
// Input.AddPdfPage("example.pdf", 10);
// Add multiple specific pages from PDF for OCR
// Input.AddPdfPages("example.pdf", numbers);
// Perform OCR to read text from the specified pages
var Result = Ocr.Read(Input);
// Output the extracted text to the console
Console.WriteLine(Result.Text);
// Save the extracted text to a file
Result.SaveAsTextFile("ocrtext.txt");
}
// Define numbers representing pages to extract from the PDF
IEnumerable<int> numbers = new List<int> { 2, 8, 10 };
// Create an instance of IronTesseract for OCR operations
var Ocr = new IronTesseract();
// Create OcrInput to manage input PDFs
using (var Input = new OcrInput())
{
// Add a specific page from PDF for OCR
// Input.AddPdfPage("example.pdf", 10);
// Add multiple specific pages from PDF for OCR
// Input.AddPdfPages("example.pdf", numbers);
// Perform OCR to read text from the specified pages
var Result = Ocr.Read(Input);
// Output the extracted text to the console
Console.WriteLine(Result.Text);
// Save the extracted text to a file
Result.SaveAsTextFile("ocrtext.txt");
}
' Define numbers representing pages to extract from the PDF
Dim numbers As IEnumerable(Of Integer) = New List(Of Integer) From {2, 8, 10}
' Create an instance of IronTesseract for OCR operations
Dim Ocr = New IronTesseract()
' Create OcrInput to manage input PDFs
Using Input = New OcrInput()
' Add a specific page from PDF for OCR
' Input.AddPdfPage("example.pdf", 10);
' Add multiple specific pages from PDF for OCR
' Input.AddPdfPages("example.pdf", numbers);
' Perform OCR to read text from the specified pages
Dim Result = Ocr.Read(Input)
' Output the extracted text to the console
Console.WriteLine(Result.Text)
' Save the extracted text to a file
Result.SaveAsTextFile("ocrtext.txt")
End Using
Korzystając z funkcji SaveAsTextFile, możemy zapisać wynik jako plik tekstowy, co pozwala nam pobrać plik do ścieżki katalogu wyjściowego. Ponadto możemy zapisać plik jako plik HTML, używając SaveAsHocrFile.
6. Inne funkcje
6.1 Korzystanie z programu ABBYY FineReader PDF
FineReader posiada kilka dodatkowych opcji, takich jak: Narysuj obszar tekstu, Narysuj obszar obrazu, Narysuj obszar tabeli, Narysuj obszar rozpoznawania itp. Pomagają one użytkownikowi poprawić wydajność OCR. Ponadto, oprócz wykonywania OCR, aplikacja umożliwia użytkownikom wykonywanie takich operacji, jak łączenie plików PDF, dzielenie plików PDF, edycja plików PDF itp.
6.2 Korzystanie z IronOCR
IronOCR posiada unikalne funkcje, które pozwalają nam odczytywać kody kreskowe i kody QR ze skanowanych dokumentów. Poniższy kod pokazuje, jak odczytać BarCodes z danego obrazu lub dokumentu.
// Create an instance of IronTesseract for OCR operations
var Ocr = new IronTesseract();
// Configure OCR language and barcode reading
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.ReadBarCodes = true;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
// Create OcrInput to manage input images
using (var Input = new OcrInput())
{
// Add an image containing barcodes
Input.AddImage("barcode.gif");
// Perform OCR to read text and barcodes from the image
var Result = Ocr.Read(Input);
// Iterate through detected barcodes and output their values
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
}
}
// Create an instance of IronTesseract for OCR operations
var Ocr = new IronTesseract();
// Configure OCR language and barcode reading
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.ReadBarCodes = true;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
// Create OcrInput to manage input images
using (var Input = new OcrInput())
{
// Add an image containing barcodes
Input.AddImage("barcode.gif");
// Perform OCR to read text and barcodes from the image
var Result = Ocr.Read(Input);
// Iterate through detected barcodes and output their values
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
}
}
' Create an instance of IronTesseract for OCR operations
Dim Ocr = New IronTesseract()
' Configure OCR language and barcode reading
Ocr.Language = OcrLanguage.EnglishBest
Ocr.Configuration.ReadBarCodes = True
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5
' Create OcrInput to manage input images
Using Input = New OcrInput()
' Add an image containing barcodes
Input.AddImage("barcode.gif")
' Perform OCR to read text and barcodes from the image
Dim Result = Ocr.Read(Input)
' Iterate through detected barcodes and output their values
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
Next Barcode
End Using
Powyższy kod służy do odczytu BARCODE'ów z podanego obrazu lub dokumentu PDF. Jest w stanie odczytać więcej niż jeden BarCode ze strony/obrazu. Aby odczytać BARCODE, IronOCR posiada unikalne ustawienie Ocr.Configuration.ReadBarCodes, które pomaga w odczycie BARCODE; wartość domyślna jest ustawiona na false.
Po przeczytaniu danych wejściowych zostaną one zapisane w obiekcie o nazwie OCRResult; Posiada on właściwość o nazwie BarCodes, która gromadzi wszystkie dostępne dane kodów kreskowych w postaci listy. Korzystając z pętli foreach, możemy uzyskać szczegóły wszystkich kodów kreskowych jeden po drugim. Ponadto skanuje BARCODE i odczytuje jego wartość — dwie operacje wykonane w jednym procesie!
Ponadto obsługiwane są również opcje wielowątkowości, co oznacza, że możemy wykonywać wiele procesów OCR jednocześnie. IronOCR jest również w stanie rozpoznać określony obszar z wybranego regionu.
// Create an instance of IronTesseract for OCR operations
var Ocr = new IronTesseract();
// Create OcrInput to manage input images
using (var Input = new OcrInput())
{
// Define a specific rectangular area on the image for OCR
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Add an image specifying the area to be processed
Input.Add("document.png", ContentArea);
// Perform OCR to read text from the specified area
var Result = Ocr.Read(Input);
// Output the extracted text to the console
Console.WriteLine(Result.Text);
}
// Create an instance of IronTesseract for OCR operations
var Ocr = new IronTesseract();
// Create OcrInput to manage input images
using (var Input = new OcrInput())
{
// Define a specific rectangular area on the image for OCR
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Add an image specifying the area to be processed
Input.Add("document.png", ContentArea);
// Perform OCR to read text from the specified area
var Result = Ocr.Read(Input);
// Output the extracted text to the console
Console.WriteLine(Result.Text);
}
' Create an instance of IronTesseract for OCR operations
Dim Ocr = New IronTesseract()
' Create OcrInput to manage input images
Using Input = New OcrInput()
' Define a specific rectangular area on the image for OCR
Dim ContentArea = New System.Drawing.Rectangle() With {
.X = 215,
.Y = 1250,
.Height = 280,
.Width = 1335
}
' Add an image specifying the area to be processed
Input.Add("document.png", ContentArea)
' Perform OCR to read text from the specified area
Dim Result = Ocr.Read(Input)
' Output the extracted text to the console
Console.WriteLine(Result.Text)
End Using
Powyżej znajduje się przykładowy kod służący do przeprowadzenia OCR w określonym obszarze. Wystarczy tylko zaznaczyć prostokątny obszar na obrazie lub w pliku PDF — silnik Tesseract w IronOCR umożliwia rozpoznanie tekstu.
7. Podsumowanie
W kontekście platformy .NET Framework korzystanie z IronOCR w Tesseract jest proste i łatwe. Obsługuje zdjęcia i dokumenty PDF na wiele różnych sposobów. Zapewnia również szereg ustawień służących poprawie wydajności biblioteki OCR Tesseract. Obsługiwanych jest wiele języków, a także wiele języków w ramach jednej operacji. Aby dowiedzieć się więcej o Tesseract OCR, odwiedź ich stronę internetową.
ABBYY FineReader PDF to aplikacja wykorzystująca silnik sztucznej inteligencji do rozpoznawania obrazów/dokumentów PDF. Oferuje również różne ustawienia pozwalające poprawić wydajność procesu OCR. Ponadto oferuje możliwość wyboru wielu języków. ABBYY FineReader PDF ma pewne ograniczenia dotyczące konwersji stron. Ceny różnią się w zależności od systemu operacyjnego. To know more about the ABBYY FineReader PDF price details, click here.
W naszych testach IronOCR wykazał się wysoką wydajnością w porównaniu z programem ABBYY FineReader PDF. W konkretnych przypadkach testowych przedstawionych w tym porównaniu niektóre znaki i cyfry na obrazach o niskiej jakości nie zostały rozpoznane przez FineReader z wystarczającą dokładnością, podczas gdy IronOCR zapewnił dokładniejsze wyniki w tych konkretnych scenariuszach. IronOCR oferuje również dodatkową funkcję rozpoznawania danych z kodów kreskowych i odczytywania wartości kodów kreskowych z obrazów. Pakiet IronOCR zapewnia dożywotnią licencję i nie wiąże się z żadnymi bieżącymi kosztami. The IronOCR package supports multiple platforms at a single price. To know more about IronOCR price details, click here.
Często Zadawane Pytania
Co sprawia, że IronOCR jest lepszą alternatywą dla programu ABBYY FineReader?
IronOCR jest uważany za najlepszy ze względu na dokładność OCR, możliwość przetwarzania obrazów o niskiej jakości oraz wszechstronne funkcje, takie jak odczytywanie BarCode’ów i kodów QR. Oferuje również dożywotnią licencję bez powtarzających się kosztów, co czyni go opłacalnym rozwiązaniem.
Jak IronOCR radzi sobie z obrazami niskiej jakości?
IronOCR oferuje zaawansowane funkcje korekcji obrazu, które poprawiają jakość skanów o niskiej rozdzielczości lub niskiej jakości, zwiększając tym samym dokładność wyników OCR.
Jakie platformy są obsługiwane przez IronOCR?
IronOCR obsługuje wiele platform, w tym Windows, Linux i macOS, w ramach jednej dożywotniej licencji.
Czy IronOCR może wykonać OCR na kodach kreskowych?
Tak, IronOCR może odczytywać kody kreskowe z obrazów poprzez skonfigurowanie biblioteki IronOCR tak, aby wykrywała i wyodrębniała wartości kodów kreskowych przy użyciu swoich funkcji OCR.
Jakie są zalety korzystania z funkcji wielowątkowości IronOCR?
Funkcja wielowątkowości w IronOCR pozwala na jednoczesne uruchamianie wielu procesów OCR, co znacznie poprawia wydajność i szybkość przetwarzania.
Jakie języki są obsługiwane przez IronOCR?
IronOCR obsługuje OCR w 125 różnych językach, co czyni go wszechstronnym narzędziem do zastosowań globalnych.
Jak licencjonowanie IronOCR ma się do licencjonowania ABBYY FineReader?
IronOCR oferuje dożywotnią licencję bez powtarzających się kosztów, podczas gdy ceny ABBYY FineReader mogą się różnić w zależności od systemu operacyjnego i mogą wiązać się z bieżącymi opłatami.
Jak mogę zintegrować IronOCR z moim projektem C#?
Możesz zintegrować IronOCR ze swoim projektem C# za pomocą Visual Studio, wiersza poleceń Visual Studio lub pobierając go ze strony NuGet.
Jakie formaty plików można konwertować za pomocą IronOCR?
IronOCR może konwertować obrazy i pliki PDF na różne formaty edytowalne, w tym WORD, Excel i pliki PDF z możliwością wyszukiwania.
Dlaczego IronOCR jest preferowanym rozwiązaniem do odczytu kodów QR?
IronOCR jest preferowanym rozwiązaniem do odczytu kodów QR ze względu na wysoką dokładność i bogaty zestaw funkcji, w tym możliwość przetwarzania szerokiej gamy formatów obrazów i poziomów jakości.



