Przejdź do treści stopki
NARZęDZIA OCR

OCR z plików PDF (bezpłatne narzędzia online)

Optyczne rozpoznawanie znaków (OCR) to technologia służąca do rozpoznawania tekstu na obrazach. Technologia ta została stworzona w celu skanowania tekstu drukowanego lub plików graficznych oraz rozpoznawania ich na komputerach. Wynika to z faktu, że obecnie wiele rzeczy ma formę cyfrową, na przykład e-maile czy książki. Jednak technologia OCR ewoluowała w kierunku bardziej zaawansowanych rozwiązań, wykorzystujących specjalistyczne algorytmy zdolne do rozpoznawania tekstu w wielu różnych czcionkach, nawet jeśli został on zniekształcony przez szumy lub inne typowe zniekształcenia, takie jak kompresja JPEG. OCR może również odczytywać pismo odręczne na papierze z 98% dokładnością.

Tekst zeskanowany za pomocą OCR można następnie edytować, indeksować, przeszukiwać, drukować i archiwizować. Oprogramowanie OCR jest szeroko stosowane w branżach opieki zdrowotnej, farmaceutycznej, ubezpieczeniowej i prawniczej. Pomaga przekształcić dokumenty papierowe w dokumenty cyfrowe, dzięki czemu można je łatwiej ponownie wykorzystać i udostępnić innym.

Zobaczmy, jak można wykonać OCR plików PDF przy użyciu różnych narzędzi.

Adobe Acrobat Pro

Adobe to firma, która jako pierwsza opracowała format PDF. Oferują szybki, wydajny silnik OCR, który może edytować każdy dokument PDF, jaki mu podasz. To jeden z najpotężniejszych silników OCR na rynku, a jeśli masz mnóstwo plików PDF do edycji, to właśnie Adobe Acrobat DC powinieneś kupić. To oprogramowanie zostało zaprojektowane w taki sposób, aby z dużą dokładnością konwertować dowolny dokument tekstowy do formatu PDF. Zachowuje również czcionkę oryginalnego dokumentu przy użyciu generatora czcionek niestandardowych.

Zobaczmy, jak przeprowadzić OCR pliku PDF za pomocą programu Adobe Acrobat:

  • Otwórz plik w programie Adobe Acrobat Pro DC.
  • Kliknij opcję "Edytuj PDF" w prawym panelu.

    OCR From PDF Free Online Tools - Figure 1

  • Dzięki funkcji OCR przekształci plik PDF w edytowalny plik PDF.
  • Teraz możesz łatwo edytować dowolny tekst i zmieniać pliki graficzne w dokumentach.

    OCR From PDF Free Online Tools - Figure 2

  • Możesz zapisać plik, wybierając "Plik > Zapisz jako" i nadając odpowiednią nazwę nowemu dokumentówi PDF.

Możesz łatwo przeprowadzić OCR wielu zeskanowanych dokumentów PDF jednocześnie.

Sejda

Sejda to oprogramowanie do edycji plików PDF z obsługą OCR, które można hostować w chmurze lub pobrać jako aplikację desktopową na systemy macOS, Windows lub Linux. Sejda umożliwia użytkownikom kompresowanie, edytowanie, podpisywanie cyfrowe, scałanie i wypełnianie plików PDF. Pliki w różnych formatach, na przykład JPEG i Excel, można przekształcić w pliki PDF. Pliki PDF można również przekształcić na inne formaty, takie jak dokumenty WORD i PowerPoint. Zobaczmy, jak można wykonać OCR dokumentów PDF za pomocą Sejda OCR.

  • Open Sejda OCR website.
  • Kliknij przycisk "Prześlij plik PDF", aby przesłać pliki, lub przeciągnij i upuść pliki z komputera.
  • Po przesłaniu zobaczysz nazwę przesłanego pliku. Wybierz język dokumentu.

    OCR From PDF Free Online Tools - Figure 3

  • Po wybraniu języka należy wybrać format wyjściowy. Możesz wybrać "PDF" lub "Tekst". Po ustawieniu formatu wyjściowego kliknij przycisk "Rozpoznaj tekst na wszystkich stronach". Rozpocznie się pobieranie tekstu.

    OCR From PDF Free Online Tools - Figure 4

  • Po zakończeniu procesu można pobrać wyodrębniony tekst.

    OCR From PDF Free Online Tools - Figure 5

SodaPDF

SodaPDF OCR to bezpłatne oprogramowanie OCR online, które umożliwia wyodrębnianie tekstu z obrazów. Jest to narzędzie do konwersji PDF OCR, które przekształca zeskanowane dokumenty, faksy i inne wydruki w edytowalny tekst, pliki PDF oraz pliki PDF z możliwością wyszukiwania. Najczęstszym zastosowaniem funkcji OCR w SodaPDF jest konwersja zeskanowanych dokumentów lub faksów na pliki edytowalne. Jest to darmowe oprogramowanie do optycznego rozpoznawania znaków (OCR) dostępne online. Wszystkie przesłane dokumenty są automatycznie usuwane z serwera po upływie określonego czasu. Posiada wiele funkcji, takich jak konwersja plików PDF do formatu WORD, które można następnie otworzyć w programie Microsoft WORD.

Zobaczmy, jak przeprowadzić OCR na pliku PDF za pomocą SodaPDF:

  • Open the SodaPDF website.
  • Kliknij przycisk "Wybierz plik" i wybierz dokumenty PDF, które chcesz przesłać.
  • Po przesłaniu pliku pojawi się interfejs użytkownika umożliwiający edycję tekstu i obrazów w pliku PDF. Plik można pobrać, klikając przycisk "Pobierz".

    OCR From PDF Free Online Tools - Figure 6

IronOCR: biblioteka IronOCR dla platformy .NET

IronOCR to solidna biblioteka do OCR w środowisku .NET Framework. Zapewnia potężny interfejs API do pracy z tekstem i obrazami, oferując funkcje takie jak rozpoznawanie w czasie rzeczywistym, wykrywanie pól oraz optyczne rozpoznawanie znaków dla zeskanowanych plików PDF. IronPDF umożliwia również edycję zeskanowanych dokumentów.

IronOCR zapewnia programistom możliwość rozpoznawania tekstu w ich aplikacjach. Może być wykorzystywane do różnych celów, takich jak konwersja zeskanowanych dokumentów do formatów cyfrowych lub rozpoznawanie podpisów na obrazach. Biblioteka IronOCR .NET zapewnia łatwy w użyciu, niskopoziomowy interfejs do zestawu SDK IronOCR. Ponadto zawiera potok przetwarzania obrazów, który automatycznie obsługuje obrazy o niskiej rozdzielczości (DPI) i wyodrębnia tekst z dokumentów PDF.

Zobaczmy, jak możemy przeprowadzić OCR pliku PDF za pomocą narzędzia OCR:

OCR kompletnego pliku PDF

Poniższy kod umożliwia wykonanie OCR na całym dokumencie PDF.

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the entire PDF document for OCR processing
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the entire PDF document for OCR processing
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' Add the entire PDF document for OCR processing
	Input.AddPdf("example.pdf", "password")

	Dim Result = Ocr.Read(Input)
	' Print the extracted text to the console
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

OCR wybranych stron pliku PDF

Możesz wykonać OCR na wybranych stronach PDF, używając funkcji AddPdfPages.

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add specific pages of the PDF document for OCR processing
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add specific pages of the PDF document for OCR processing
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' Add specific pages of the PDF document for OCR processing
	Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	Dim Result = Ocr.Read(Input)
	' Print the extracted text to the console
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

Konwersja pliku PDF do formatu PDF z możliwością wyszukiwania

Możesz przekonwertować plik PDF na plik PDF z możliwością wyszukiwania za pomocą IronOCR, korzystając z funkcji SaveAsSearchablePdf.

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the PDF for processing and specify the password if any
    Input.AddPdf("scan.pdf", "password");

    // Correct twisted or skewed pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    // Save the processed result as a searchable PDF
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the PDF for processing and specify the password if any
    Input.AddPdf("scan.pdf", "password");

    // Correct twisted or skewed pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    // Save the processed result as a searchable PDF
    Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' Add the PDF for processing and specify the password if any
	Input.AddPdf("scan.pdf", "password")

	' Correct twisted or skewed pages
	Input.Deskew()

	Dim Result = Ocr.Read(Input)
	' Save the processed result as a searchable PDF
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using
$vbLabelText   $csharpLabel

Wnioski

Przeanalizowaliśmy kilka świetnych narzędzi do optycznego rozpoznawania znaków. Narzędzia te umożliwiają programowe rozpoznawanie tekstu oraz tworzenie plików PDF z możliwością wyszukiwania i edycji.

W przypadku programowania w środowisku .NET Framework zalecamy użycie IronOCR. IronOCR pozwala w łatwy sposób przeprowadzać rozpoznawanie tekstu (OCR) w środowisku .NET Framework; jest potężne i dzięki temu można z niego łatwo korzystać nawet wtedy, gdy oryginalny dokument został uszkodzony lub zniekształcony, na przykład w wyniku zalania.

Innym przykładem zastosowania jest konwersja starych, wypełnionych ręcznie formularzy papierowych, takich jak faktury i paragony, do wersji cyfrowych. Dzięki temu dokumenty te mogą być przetwarzane automatycznie przez oprogramowanie księgowe, co zwiększa dokładność i wydajność.

Kannaopat Udonpant
Inżynier oprogramowania
Zanim stał się inżynierem oprogramowania, Kannapat ukończył doktorat z zasobów środowiskowych na Uniwersytecie Hokkaido w Japonii. W czasie studiowania, Kannapat również został członkiem Laboratorium Robotyki Pojazdów, które jest częścią Wydziału Inżynierii Bioprodukcji. W 2022 roku wykorzystał swoje umiejętności w ...
Czytaj więcej

Zespol wsparcia Iron

Jestesmy online 24 godziny, 5 dni w tygodniu.
Czat
Email
Zadzwon do mnie