Ekstrakcja tekstu z plików PDF za pomocą OCR

VB C#

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

using var ocrInput = new OcrInput();

// OCR entire document
ocrInput.LoadPdf("example.pdf", Password: "password");

int[] pages = { 1, 2, 3, 4, 5 };

// Alternatively OCR selected page numbers
ocrInput.LoadPdfPages("example.pdf", pages, Password: "password");

var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);

Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()

Private ocrInput = New OcrInput()

' OCR entire document
ocrInput.LoadPdf("example.pdf", Password:= "password")

Dim pages() As Integer = { 1, 2, 3, 4, 5 }

' Alternatively OCR selected page numbers
ocrInput.LoadPdfPages("example.pdf", pages, Password:= "password")

Dim ocrResult = ocrTesseract.Read(ocrInput)
Console.WriteLine(ocrResult.Text)

Install-Package IronOcr

Ekstrakcja tekstu z plików PDF za pomocą OCR

Iron Tesseract może odczytywać wiele formatow obrazów oraz dokumentów PDF. Ta funkcja nie jest możliwa przy użyciu konwencjonalnych darmowych silnikow Tesseract.

OcrInput oferuje opcję automatycznej korekty charakterystyk PDF, jeśli skanowane materiały są złej jakości.

Deweloperzy mogą okreslic, czy odczytywać caly PDF, wybrane strony, czy pojedynczy obszar kadrowania.

Jak wykonac OCR pliku PDF w C#

Pobierz biblioteke C# do wykonywania OCR na pliku PDF
Uzyj metody AddPdf, aby dodac dokument PDF
Dodaj okreslone strony dokumentu PDF za pomoca metody AddPdfPages
Uzyj metody Read, aby wykonac OCR na dodanym PDF
Wyswietl wszystkie wartosci kodow QR w właściwości Barcodes. Uzyskaj dostep do właściwości Text, aby pobrac wynik OCR

C# PDF OCR

Wiele narzędzi OCR działa poprawnie w optymalnych warunkach, ale gdy potrzebujesz czegos, co zapewnia stabilnosc i dokładność w kazdych warunkach, rozwiązanie do ekstrakcji tekstu IronOCR jest wlasnie tym, czego potrzebujesz.

IronOCR do ekstrakcji tekstu zostalo zbudowane od podstaw z możliwoscia konwersji rzeczywistych obrazów z 99-procentowa dokładnością.

IronTesseract, nasza natywna biblioteka OCR w C#, potrafi rozpoznawać znaki niemal w ludzki sposób z rzeczywistych obrazów, które nie zawsze są dobrej jakości i czasami są przekrzywione.

Nasz OCR pozwala automatycznie korygowac charakterystyki PDF lub obrazów, jeśli skany sa slabej jakosci.

Przeprowadzajac cie przez najlepsze w swojej klasie rozwiązanie OCR dostępne dzisiaj, będziesz mogl zobaczyć to sam.

Dlaczego IronOCR do ekstrakcji tekstu OCR z obrazów lub PDF?

Wybor rozwiązania IronOCR do zarządzania Tesseract jest oczywisty, jeśli wezmiemy pod uwage jego unikalne zdolnosci, ktore obejmuja następujące:

Silnik IronOCR do ekstrakcji tekstu OCR z PDF działa prosto z pudełka w czystym .NET
Nie wymaga instalacji Tesseract na twoim komputerze.
Dziala doskonale z najnowszymi silnikami: Tesseract 5 (jak również Tesseract 4 i 3).
Jest dostępne dla kazdego projektu .NET: .NET Framework 4.5 +, .NET Standard 2 +, oraz .NET Core 2, 3 i 5!
Ma poprawiona dokładność i szybkość w porownaniu z innymi otwartymi Tesseractami.
IronOCR wspiera platformy rozwoju Xamarin, Mono, Azure i Docker.
Kompleksowe systemy slownika Tesseract można zarządzać przy użyciu pakietow NuGet.
Można wyodrębnić tekst z plików PDF, Tiff wieloklatkowych i wszystkich głównych plików obrazów bez dodatkow.
Można korygowac slabej jakosci i przechylone skany obrazów, aby uzyskać najlepsze wyniki z projektu ekstrakcji tekstu.

Czy masz skany o niskiej jakosci? Zaden problem!

IronOCR wyróżnią sie na wyzszym poziomie, gdy chodzi o zadania OCR. W rzeczywistosci wiele podobnych produktów zostalo zaprojektowanych do pracy z maszynowo drukowanym, wysokiej rozdzielczosci tekstem lub obrazami, co sprawia, ze staja sie niedokładne lub zawodzą w realnych aplikacjach. Jednakze, to nie dotyczy IronOCR.

IronOCR wyróżnią sie w poprawianiu niedoskonalych dokumentów. Można wyprostowac przechylony zeskanowany obraz i poprawić niskiej jakosci zdjecia, aby staly sie przeszukiwalnymi dokumentami PDF lub obrazami. To wlasnie sprawia, ze nasz produkt wyróżnią sie na tle innych.

Dostroj działanie IronOCR do swoich potrzeb

Z rozwiązaniem OCR od Iron Software możesz dostroic wydajność zadań ekstrakcji tekstu, aby uzyskać odpowiednia rownowage dla swojego przepływu pracy. Wiemy, ze to jest bardzo ważne dla wielu użytkowników i deweloperow, dlatego zbudowalismy nasze rozwiązanie OCR jako regulowane i elastyczne.

Na przykład jednym z ważnych czynnikow wpływających na szybkość pracy zadań OCR jest jakosc obrazu wejsciowego. Gdy jest mniej zaklocen w tle, a obraz ma wyzsza rozdzielczosc (200 dpi to dobry zakres), praca przebiega szybciej i wyniki OCR sa bardziej dokładne. Jednakze, dzięki funkcji dostrajania IronOCR, nawet zadania z obrazami o niskiej jakosci mogą zostac szybko wykonane.

Ponadto, wybieranie obrazów wejsciowych lub formatow skanowanego tekstu o mniejszych zakloceniach cyfrowych, takich jak PNG lub TIFF, może także przyniesc szybsze rezultaty niz obrazy o niższej jakosci, takie jak JPEG.

Instalacja rozwiązania IronOCR to pestka

Suite Iron Software jest bardzo łatwy do zainstalowania i działania. Jest dostępny dla najpopularniejszych platform rozwijania. Nasze rozwiązanie ma wsparcie multiplatformowe obejmujace Windows, Linux, macOS, Azure, AWS, i Docker - jest powod, dla ktorego C# czyni go najbardziej preferowanym silnikiem Tesseract OCR wsrod deweloperow.

Wsparcie dla ponad 125 językow miedzynarodowych

Do zadań OCR, oprogramowanie staje się bardziej uzyteczne, gdy wspiera wiele językow. Rozwiązanie IronOCR czyni siebie niezastapionym, poniewaz wspiera 125 językow miedzynarodowych. Te języki mogą być instalowane za pomoca pakietow językowych dystrybuowanych jako pliki DLL. Można je pobrac z tej strony lub z menedzera pakietow NuGet dla Visual Studio.

Jak zainstalować pakiety językowe OCR

Obslugiwanych jest sto dwadziescia językow. Możesz pobrac dowolne dodatkowe pakiety językowe OCR na dwa sposoby:

Zainstaluj pakiet NuGet

Wyszukaj NuGet dla IronOCR Languages.

Używając metody danych OCR

Pobierz plik ocrdata i dodaj go do swojego projektu .NET lub plików programu.

Latwo stworz przeszukiwalne dokumenty z zeskanowanych plików lub obrazów

Jedna z funkcji, z ktorej bardzo jestesmy dumni, jest zdolnosć naszego oprogramowania Tesseract do tworzenia przeszukiwalnego dokumentu PDF lub przeszukiwalnego tekstu z obrazów wejsciowych lub zeskanowanego pliku PDF. Możesz eksportowac wynik OCR jako PDF, ktory będzie przeszukiwalnym dokumentem PDF w C# oraz VB.NET. Może to naprawde pomoc firmom i rzadzom przy wypelnianiu baz danych, SEO i PDFach.

Wykorzystaj potege najlepszego narzędzia OCR

IronOCR jest narzędziem najwyzszej klasy do ekstrakcji tekstu z obrazów i dokumentów. Dostarcza szereg funkcji, funkcjonalności i rozwiązan, ktore zapewniają gladkie i łatwe doswiadczenie przy wykonywaniu zadań OCR.

Nasze biblioteki OCR Tesseract w C# mogą pomoc wyodrębnić tekst z obrazów i zeskanowanych dokumentów w środowiskach programistycznych takich jak aplikacje C# i .NET.

Za pomoca IronOCR można łatwo otwierac dokumenty PDF zabezpieczone haslem oraz wyodrębnić tekst.

Posiada również następujące cechy:

Nie wymaga plików wykonywalnych ani kodu C++
Pełna obsługa OCR dla PDFów
Zgodny z aplikacjami MVC, Web App, Desktop, Console i Server
Kompleksowa obsługa .NET Core, Standard oraz Framework
Odczyt za pomocą C# & VB .NET
Odczytuje kody QR oraz kreski
Eksportuje OCR do XHTML lub przeszukiwalnego dokumentu PDF
Wspiera wielowątkówość
Wyodrebnia obrazy, wspolrzedne, statystyki, czcionki i wiele więcej

Zrob odważny krok w strone IronOCR

Biorac pod uwage funkcje tego niewiarygodnego rozwiązania OCR, nie można sie mylic, decydujac sie na wyprobowanie IronOCR.

Używanie naszego oprogramowania to zaledwie kilka klikniec. Zacznij instalujac IronOCR - to niezwykle proste zadanie. Ponadto, sa niezwykle pomocne i szczegółowe przewodniki krok po kroku dotyczące używania ktoregokolwiek z naszych narzędzi i przewodniki jak to działanie, nie wspominajac o naszym zasobnym centrum wsparcia, ktore odpowiada na zapytania tak szybko, jak to możliwe (niemal natychmiast).

Nie wahaj sie - wybierz IronOCR juz dzis. To jest pierwszy i najwazniejszy krok w nauce, jak czytac pliki PDF w C#.

Jeśli masz jakiekolwiek watpliwosci, nasz darmowy klucz licencyjny próbny jest dla ciebie idealny. Może pomoc ci odkryc pełny potencjal najnowszej wersji IronOCR bez warunków finansowych. Może pomoc ci zdecydowac, która licencja oprogramowania jest dla ciebie odpowiednia. Jeśli nie jestes pewny, prosze nie wahaj sie skontaktować z naszym zespołem ekspertow, niezależnie od twojego miejsca.

Naucz sie tworzyć przeszukiwalne dokumenty PDF z IronOCR