Jak OCR-ować PDF – Samouczek (Darmowe Narzędzia Online)
OCR, czyli optyczne rozpoznawanie znaków, to proces przekształcania informacji tekstowych do postaci cyfrowej. OCR plików PDF to popularna aplikacja, którą można wykorzystać do usprawnienia procesów biznesowych. Jedną z zalet OCR plików PDF jest to, że można go wykorzystać do poprawy dostępności informacji. Jest to szczególnie ważne w przypadku dokumentów, które nie są dostępne w formacie, z którego każdy może korzystać lub który każdy może przeczytać. OCR plików PDF może posłużyć do stworzenia kopii dokumentu w formacie dostępnym dla wszystkich.
Innym zastosowaniem OCR w plikach PDF jest śledzenie dokumentów. Kiedy dokument jest archiwizowany, skanowany lub przepisywany, śledzenie, która wersja dokumentu jest powiązana z danym plikiem, może być trudne. Dzięki funkcji OCR w plikach PDF można śledzić zmiany wprowadzone w dokumencie i określić, które wersje są powiązane z danym plikiem. Może to być przydatne do zarządzania archiwami dokumentów i zapobiegania utracie ważnych informacji.
W tym artykułe dowiesz się, jak korzystać z funkcji OCR dla dowolnego pliku PDF przy użyciu oprogramowania Adobe Acrobat Pro. W tym artykułe przedstawimy również bibliotekę OCR dla platformy .NET o nazwie IronOCR, która jest jedną z najbardziej wydajnych i bogatych w funkcje bibliotek dostępnych na rynku. Zacznijmy od programu Adobe Acrobat Pro.
OCR-uj plik PDF za pomocą programu Adobe Acrobat Pro DC
Adobe Acrobat Pro DC to wersja Pro programu Adobe Acrobat Reader DC. Jest to najpopularniejsze i najpotężniejsze narzędzie do edycji plików PDF. Dzięki temu oprogramowaniu możesz tworzyć, edytować, podpisywać i przeglądać dowolne dokumenty PDF. Ponadto umożliwia konwersję plików PDF na prezentacje PowerPoint, dokumenty WORD lub pliki Excel. Może również edytować zeskanowane dokumenty.
Nowa wersja programu Acrobat DC to również skaner dokumentów, który może szybko przekształcić zeskanowane dokumenty w pliki cyfrowe przy użyciu technologii OCR. Oferuje funkcję optycznego rozpoznawania znaków, a także inteligentne skanowanie wizytówek, które w ciągu kilku sekund automatycznie wykrywa i zapisuje informacje kontaktowe z wizytówek.
Oprócz możliwości wyodrębniania tekstu z plików PDF, Acrobat Pro DC posiada wiele funkcji, które sprawiają, że jest to cenne narzędzie do transkrypcji plików PDF.
Zobaczmy, jak możemy wykorzystać OCR zeskanowanego dokumentu za pomocą programu Adobe Acrobat Pro.
- Otwórz wybrany dokument PDF, w naszym przykładzie zeskanowany plik PDF, w programie Adobe Acrobat.
- Wybierz opcję "Edytuj PDF" w prawym panelu dokumentu.
- Spowoduje to otwarcie interfejsu narzędzia Adobe Reader OCR PDF.
- Kliknij przycisk "Edytuj" na górnym pasku narzędzi.
- Spowoduje to konwersję zeskanowanych dokumentów PDF na dokumenty PDF z pełną edycją. Będziesz mógł edytować pliki tekstowe i graficzne bezpośrednio w pliku PDF.
- Można również zmienić położenie bloku tekstu, czcionkę itp.
Po wprowadzeniu zmian zapisz plik, a zmiany te zostaną odzwierciedlone w dokumencie.
IronOCR: biblioteka IronOCR dla platformy .NET
IronOCR to biblioteka OCR dla platformy .NET oraz narzędzie OCR, które odczytuje dokumenty tekstowe i obrazy, konwertując je do formatu nadającego się do odczytu maszynowego.
Ta biblioteka do optycznego rozpoznawania znaków została opracowana z uwzględnieniem następujących kwestii:
- Potrzeba solidnego i dokładnego silnika OCR, który może być używany z różnymi językami bez konieczności korzystania z zewnętrznego oprogramowania.
- Potrzeba łatwego w użyciu interfejsu API, który działa na różnych platformach, takich jak Windows, Linux i macOS.
- Potrzeba silnika OCR, który można łatwo zintegrować z różnymi aplikacjami .NET i który obsługuje zarówno aplikacje WPF, jak i konsolowe.
IronOCR ułatwia programistom tworzenie oprogramowania, które obsługuje skanowanie dokumentów, wyodrębnianie tekstu i metadanych, indeksowanie zeskanowanych plików graficznych, konwersję obrazów do plików PDF z możliwością wyszukiwania oraz konwersję zeskanowanych dokumentów na tekst, który można odczytać. IronOCR oferuje wiele opcji w zakresie kodowania, konwersji formatów obrazów oraz rozpoznawania i ekstrakcji tekstu. IronOCR obsługuje 125 języków.
IronOCR zapewnia intuicyjny, solidny i dokładny proces OCR do rozpoznawania tekstu ze skanowanych dokumentów, zdjęć i zrzutów ekranu, jednocześnie ograniczając czasochłonne zadania, takie jak segmentacja stron i analiza układu. Biblioteka została napisana w języku C#, a jej API jest proste i czytelne.
Przyjrzyjmy się kilku przykładom kodu wykorzystującym IronOCR:
Przykłady kodu
using IronOcr;
var Ocr = new IronTesseract();
// Initialize OCR input
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
// Alternatively, OCR selected page numbers
Input.AddPdfPages("example.pdf", new[] { 1, 2, 3 }, "password");
// Read the PDF and output the recognized text
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
// Initialize OCR input
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
// Alternatively, OCR selected page numbers
Input.AddPdfPages("example.pdf", new[] { 1, 2, 3 }, "password");
// Read the PDF and output the recognized text
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
' Initialize OCR input
Using Input = New OcrInput()
' OCR entire document
Input.AddPdf("example.pdf", "password")
' Alternatively, OCR selected page numbers
Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")
' Read the PDF and output the recognized text
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
Ten przykład pokazuje, jak używać IronOCR do przetwarzania całego dokumentu PDF lub konkretnych stron z dokumentu.
Plik PDF (dane wejściowe)
Wynik w konsoli
Za pomocą IronOCR można przekonwertować plik PDF na plik PDF z możliwością zaznaczania elementów. To bardzo proste i przejrzyste. Zobacz poniższy fragment kodu dotyczący konwersji plików PDF:
using IronOcr;
var Ocr = new IronTesseract();
// Initialize OCR input
using (var Input = new OcrInput())
{
// Add PDF for processing
Input.AddPdf("scan.pdf", "password");
// Clean up twisted pages to improve OCR results
Input.Deskew();
// Run OCR and save as a searchable PDF
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;
var Ocr = new IronTesseract();
// Initialize OCR input
using (var Input = new OcrInput())
{
// Add PDF for processing
Input.AddPdf("scan.pdf", "password");
// Clean up twisted pages to improve OCR results
Input.Deskew();
// Run OCR and save as a searchable PDF
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr
Private Ocr = New IronTesseract()
' Initialize OCR input
Using Input = New OcrInput()
' Add PDF for processing
Input.AddPdf("scan.pdf", "password")
' Clean up twisted pages to improve OCR results
Input.Deskew()
' Run OCR and save as a searchable PDF
Dim Result = Ocr.Read(Input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
IronOCR oferuje wiele innych narzędzi i funkcji. Możesz zapoznać się z funkcjami IronOCR, odwiedzając poniższy link.
Wnioski
Biblioteka IronOCR ma kilka zalet w porównaniu z innymi bibliotekami dostępnymi na rynku. Możesz modyfikować i rozszerzać jego funkcjonalność, dodając własne moduły za pomocą zaledwie kilku linii kodu. IronOCR może obecnie odczytywać teksty w ponad 125 językach. Została opracowana w celu zapewnienia wyższej jakości i bardziej niezawodnych wyników przy znacznie mniejszym zużyciu czasu i zasobów pamięci w porównaniu z innymi bibliotekami.
IronOCR jest bezpłatny do celów programistycznych. IronOCR oferuje również bezpłatną wersję próbną do testowania w środowisku produkcyjnym. Aby uzyskać więcej informacji na temat cen i bezpłatnej wersji próbnej IronOCR, kliknij link.




