NARZęDZIA OCR

Jak OCR-ować PDF – Samouczek (Darmowe Narzędzia Online)

Zaktualizowano:22 czerwca, 2025

OCR, czyli optyczne rozpoznawanie znaków, to proces przekształcania informacji tekstowych do postaci cyfrowej. OCR plików PDF to popularna aplikacja, którą można wykorzystać do usprawnienia procesów biznesowych. Jedną z zalet OCR plików PDF jest to, że można go wykorzystać do poprawy dostępności informacji. Jest to szczególnie ważne w przypadku dokumentów, które nie są dostępne w formacie, z którego każdy może korzystać lub który każdy może przeczytać. OCR plików PDF może posłużyć do stworzenia kopii dokumentu w formacie dostępnym dla wszystkich.

Innym zastosowaniem OCR w plikach PDF jest śledzenie dokumentów. Kiedy dokument jest archiwizowany, skanowany lub przepisywany, śledzenie, która wersja dokumentu jest powiązana z danym plikiem, może być trudne. Dzięki funkcji OCR w plikach PDF można śledzić zmiany wprowadzone w dokumencie i określić, które wersje są powiązane z danym plikiem. Może to być przydatne do zarządzania archiwami dokumentów i zapobiegania utracie ważnych informacji.

W tym artykułe dowiesz się, jak korzystać z funkcji OCR dla dowolnego pliku PDF przy użyciu oprogramowania Adobe Acrobat Pro. W tym artykułe przedstawimy również bibliotekę OCR dla platformy .NET o nazwie IronOCR, która jest jedną z najbardziej wydajnych i bogatych w funkcje bibliotek dostępnych na rynku. Zacznijmy od programu Adobe Acrobat Pro.

OCR-uj plik PDF za pomocą programu Adobe Acrobat Pro DC

Adobe Acrobat Pro DC to wersja Pro programu Adobe Acrobat Reader DC. Jest to najpopularniejsze i najpotężniejsze narzędzie do edycji plików PDF. Dzięki temu oprogramowaniu możesz tworzyć, edytować, podpisywać i przeglądać dowolne dokumenty PDF. Ponadto umożliwia konwersję plików PDF na prezentacje PowerPoint, dokumenty WORD lub pliki Excel. Może również edytować zeskanowane dokumenty.

Nowa wersja programu Acrobat DC to również skaner dokumentów, który może szybko przekształcić zeskanowane dokumenty w pliki cyfrowe przy użyciu technologii OCR. Oferuje funkcję optycznego rozpoznawania znaków, a także inteligentne skanowanie wizytówek, które w ciągu kilku sekund automatycznie wykrywa i zapisuje informacje kontaktowe z wizytówek.

Oprócz możliwości wyodrębniania tekstu z plików PDF, Acrobat Pro DC posiada wiele funkcji, które sprawiają, że jest to cenne narzędzie do transkrypcji plików PDF.

Zobaczmy, jak możemy wykorzystać OCR zeskanowanego dokumentu za pomocą programu Adobe Acrobat Pro.

Otwórz wybrany dokument PDF, w naszym przykładzie zeskanowany plik PDF, w programie Adobe Acrobat.
Wybierz opcję "Edytuj PDF" w prawym panelu dokumentu.

Spowoduje to otwarcie interfejsu narzędzia Adobe Reader OCR PDF.
Kliknij przycisk "Edytuj" na górnym pasku narzędzi.
Spowoduje to konwersję zeskanowanych dokumentów PDF na dokumenty PDF z pełną edycją. Będziesz mógł edytować pliki tekstowe i graficzne bezpośrednio w pliku PDF.

Można również zmienić położenie bloku tekstu, czcionkę itp.

Po wprowadzeniu zmian zapisz plik, a zmiany te zostaną odzwierciedlone w dokumencie.

IronOCR: biblioteka IronOCR dla platformy .NET

IronOCR to biblioteka OCR dla platformy .NET oraz narzędzie OCR, które odczytuje dokumenty tekstowe i obrazy, konwertując je do formatu nadającego się do odczytu maszynowego.

Ta biblioteka do optycznego rozpoznawania znaków została opracowana z uwzględnieniem następujących kwestii:

Potrzeba solidnego i dokładnego silnika OCR, który może być używany z różnymi językami bez konieczności korzystania z zewnętrznego oprogramowania.
Potrzeba łatwego w użyciu interfejsu API, który działa na różnych platformach, takich jak Windows, Linux i macOS.
Potrzeba silnika OCR, który można łatwo zintegrować z różnymi aplikacjami .NET i który obsługuje zarówno aplikacje WPF, jak i konsolowe.

IronOCR ułatwia programistom tworzenie oprogramowania, które obsługuje skanowanie dokumentów, wyodrębnianie tekstu i metadanych, indeksowanie zeskanowanych plików graficznych, konwersję obrazów do plików PDF z możliwością wyszukiwania oraz konwersję zeskanowanych dokumentów na tekst, który można odczytać. IronOCR oferuje wiele opcji w zakresie kodowania, konwersji formatów obrazów oraz rozpoznawania i ekstrakcji tekstu. IronOCR obsługuje 125 języków.

IronOCR zapewnia intuicyjny, solidny i dokładny proces OCR do rozpoznawania tekstu ze skanowanych dokumentów, zdjęć i zrzutów ekranu, jednocześnie ograniczając czasochłonne zadania, takie jak segmentacja stron i analiza układu. Biblioteka została napisana w języku C#, a jej API jest proste i czytelne.

Przyjrzyjmy się kilku przykładom kodu wykorzystującym IronOCR:

Przykłady kodu

using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively, OCR selected page numbers
    Input.AddPdfPages("example.pdf", new[] { 1, 2, 3 }, "password");

    // Read the PDF and output the recognized text
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}

using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively, OCR selected page numbers
    Input.AddPdfPages("example.pdf", new[] { 1, 2, 3 }, "password");

    // Read the PDF and output the recognized text
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}

Imports IronOcr

Private Ocr = New IronTesseract()

' Initialize OCR input
Using Input = New OcrInput()
	' OCR entire document
	Input.AddPdf("example.pdf", "password")

	' Alternatively, OCR selected page numbers
	Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	' Read the PDF and output the recognized text
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using

$vbLabelText $csharpLabel

Ten przykład pokazuje, jak używać IronOCR do przetwarzania całego dokumentu PDF lub konkretnych stron z dokumentu.

Plik PDF (dane wejściowe)

Wynik w konsoli

Za pomocą IronOCR można przekonwertować plik PDF na plik PDF z możliwością zaznaczania elementów. To bardzo proste i przejrzyste. Zobacz poniższy fragment kodu dotyczący konwersji plików PDF:

using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // Add PDF for processing
    Input.AddPdf("scan.pdf", "password");

    // Clean up twisted pages to improve OCR results
    Input.Deskew();

    // Run OCR and save as a searchable PDF
    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}

using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // Add PDF for processing
    Input.AddPdf("scan.pdf", "password");

    // Clean up twisted pages to improve OCR results
    Input.Deskew();

    // Run OCR and save as a searchable PDF
    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}

Imports IronOcr

Private Ocr = New IronTesseract()

' Initialize OCR input
Using Input = New OcrInput()
	' Add PDF for processing
	Input.AddPdf("scan.pdf", "password")

	' Clean up twisted pages to improve OCR results
	Input.Deskew()

	' Run OCR and save as a searchable PDF
	Dim Result = Ocr.Read(Input)
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using

$vbLabelText $csharpLabel

IronOCR oferuje wiele innych narzędzi i funkcji. Możesz zapoznać się z funkcjami IronOCR, odwiedzając poniższy link.

Wnioski

Biblioteka IronOCR ma kilka zalet w porównaniu z innymi bibliotekami dostępnymi na rynku. Możesz modyfikować i rozszerzać jego funkcjonalność, dodając własne moduły za pomocą zaledwie kilku linii kodu. IronOCR może obecnie odczytywać teksty w ponad 125 językach. Została opracowana w celu zapewnienia wyższej jakości i bardziej niezawodnych wyników przy znacznie mniejszym zużyciu czasu i zasobów pamięci w porównaniu z innymi bibliotekami.

IronOCR jest bezpłatny do celów programistycznych. IronOCR oferuje również bezpłatną wersję próbną do testowania w środowisku produkcyjnym. Aby uzyskać więcej informacji na temat cen i bezpłatnej wersji próbnej IronOCR, kliknij link.

Kannapat Udonpant

Czat z zespołem inżynierów teraz

Inżynier oprogramowania

Zanim stał się inżynierem oprogramowania, Kannapat ukończył doktorat z zasobów środowiskowych na Uniwersytecie Hokkaido w Japonii. W czasie studiowania, Kannapat również został członkiem Laboratorium Robotyki Pojazdów, które jest częścią Wydziału Inżynierii Bioprodukcji. W 2022 roku wykorzystał swoje umiejętności w ...

Czytaj więcej

Powiązane artykuły

Zaktualizowano 22 czerwca, 2025

Power Automate OCR (samouczek dla programistów)

Ta technologia optycznego rozpoznawania znaków (OCR) jest wykorzystywana w aplikacjach do digitalizacji dokumentów, automatycznego wyodrębniania i wprowadzania danych z plików PDF, przetwarzania faktur oraz umożliwiania przeszukiwania zeskanowanych plików PDF.

Czytaj więcej

Zaktualizowano 22 czerwca, 2025

Easyocr vs Tesseract (Porównanie funkcji OCR)

Popularne narzędzia i biblioteki OCR, takie jak EasyOCR, Tesseract OCR, Keras-OCR i IronOCR, są powszechnie wykorzystywane do integracji tej funkcjonalności z nowoczesnymi aplikacjami.

Czytaj więcej