Zum Fußzeileninhalt springen
OCR-WERKZEUGE

So führen Sie OCR auf einem PDF durch Tutorial (Kostenlose Online-Tools)

OCR oder optische Zeichenerkennung ist ein Verfahren zur Umwandlung von Textinformationen in digitale Form. PDF-OCR ist eine beliebte Anwendung, die zur Verbesserung von Geschäftsprozessen verwendet werden kann. Einer der Vorteile von PDF-OCR besteht darin, dass es zur Verbesserung der Zugänglichkeit von Informationen verwendet werden kann. Dies ist besonders wichtig für Dokumente, die nicht in einem Format verfügbar sind, das jeder nutzen oder lesen kann. PDF-OCR kann verwendet werden, um eine Kopie des Dokuments zu erstellen, die in einem Format verfügbar ist, das jeder nutzen kann.

Ein weiterer Anwendungsbereich von PDF-OCR liegt in der Nachverfolgung von Dokumenten. Wenn ein Dokument abgelegt, gescannt oder transkribiert wird, kann es schwierig sein, nachzuvollziehen, welche Version des Dokuments mit welcher Datei verbunden ist. Mit PDF-OCR ist es möglich, die an einem Dokument vorgenommenen Änderungen zu verfolgen und festzustellen, welche Versionen mit welcher Datei verknüpft sind. Dies kann nützlich sein, um Dokumentenarchive zu verwalten und den Verlust wichtiger Informationen zu verhindern.

In diesem Artikel erfahren Sie, wie Sie OCR für jede PDF-Datei mit der Software Adobe Acrobat Pro nutzen können. Dieser Artikel stellt auch die .NET OCR-Bibliothek IronOCR vor, die eine der effizientesten und funktionsreichsten Bibliotheken ist, die verfügbar sind. Beginnen wir mit Adobe Acrobat Pro.

OCR eines PDFs mit Adobe Acrobat Pro DC

class="content-img-align-center"> How to OCR a PDF - Figure 1

Adobe Acrobat Pro DC ist die Pro-Version von Adobe Acrobat Reader DC. Es ist das beliebteste und leistungsstärkste Tool zur Bearbeitung von PDFs. Mit dieser Software können Sie jedes PDF-Dokument erstellen, bearbeiten, signieren und überprüfen. Darüber hinaus können Sie PDFs in PowerPoint-Präsentationen, Word-Dokumente oder Excel-Dateien umwandeln. Es kann auch gescannte Dokumente bearbeiten.

Die neue Version von Acrobat DC ist auch ein Dokumentenscanner, der gescannte Dokumente mithilfe der OCR-Technologie schnell in digitale Dateien umwandeln kann. Es verfügt über optische Zeichenerkennung sowie intelligentes Visitenkartenscannen, das automatisch Kontaktdaten von Karten in Sekunden erfasst und speichert.

Neben der Möglichkeit, Text aus PDF-Dateien zu extrahieren, verfügt Acrobat Pro DC über viele Eigenschaften, die es zu einem wertvollen Werkzeug für die PDF-Transkription machen.

Sehen wir uns an, wie wir OCR eines gescannten Dokuments mit Adobe Acrobat Pro durchführen können.

  • Öffnen Sie das gewünschte PDF-Dokument, in unserem Beispiel eine gescannte PDF-Datei, in Adobe Acrobat.
  • Wählen Sie "PDF bearbeiten" aus dem rechten Bereich des Dokuments.
class="content-img-align-center"> How to OCR a PDF - Figure 2

  • Dies öffnet die Oberfläche des Adobe Reader OCR PDF-Tools.
  • Klicken Sie auf die Schaltfläche "Bearbeiten" im oberen Menüband.
  • Dies konvertiert gescannte PDF-Dokumente in vollständig bearbeitbare PDF-Dokumente. Sie können Text- und Bilddateien direkt auf der PDF-Datei bearbeiten.
class="content-img-align-center"> How to OCR a PDF - Figure 3

  • Sie können auch den Standort des Textblocks, die Schriftart usw. ändern.

Nachdem Sie Änderungen vorgenommen haben, speichern Sie die Datei und Sie werden sehen, dass diese Änderungen im Dokument reflektiert werden.

IronOCR: Eine .NET OCR-Bibliothek

class="content-img-align-center"> How to OCR a PDF - Figure 4

IronOCR ist eine .NET OCR-Bibliothek und OCR-Tool, das Textdokumente und Bilder lesen kann, indem es diese in ein maschinenlesbares Format umwandelt.

Diese optische Zeichenerkennungsbibliothek wurde unter Berücksichtigung folgender Punkte entwickelt:

  • Das Bedürfnis nach einer robusten und genauen OCR-Engine, die mit verschiedenen Sprachen genutzt werden kann, ohne dass externe Software benötigt wird.
  • Das Bedürfnis nach einer benutzerfreundlichen API, die auf verschiedenen Plattformen wie Windows, Linux und macOS funktioniert.
  • Das Bedürfnis nach einer OCR-Engine, die leicht in verschiedene .NET-Anwendungen integriert werden kann und sowohl WPF als auch Konsolen-Apps unterstützt.

IronOCR erleichtert Entwicklern die Erstellung von Software, die das Scannen von Dokumenten, das Extrahieren von Text und Metadaten, das Indexieren gescannter Bilddateien, das Konvertieren von Bildern in durchsuchbare PDFs und das Umwandeln gescannter Dokumente in lesbaren Text unterstützt. IronOCR bietet viele Optionen in Bezug auf Kodierung, Konvertierung von Bildformaten und Texterkennung und -extraktion. IronOCR unterstützt 125 Sprachen.

IronOCR bietet einen intuitiven, robusten und genauen OCR-Prozess, um Text aus gescannten Dokumenten, Fotografien und Screenshots zu erkennen, während zeitaufwändige Aufgaben wie Seitensegmentierung und Layoutanalyse reduziert werden. Die Bibliothek ist in C# entwickelt und ihr API-Design ist unkompliziert und gut lesbar.

Lassen Sie uns einige Code-Beispiele mit IronOCR erkunden:

Code-Beispiele

using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively, OCR selected page numbers
    Input.AddPdfPages("example.pdf", new[] { 1, 2, 3 }, "password");

    // Read the PDF and output the recognized text
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively, OCR selected page numbers
    Input.AddPdfPages("example.pdf", new[] { 1, 2, 3 }, "password");

    // Read the PDF and output the recognized text
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()

' Initialize OCR input
Using Input = New OcrInput()
	' OCR entire document
	Input.AddPdf("example.pdf", "password")

	' Alternatively, OCR selected page numbers
	Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	' Read the PDF and output the recognized text
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

Dieses Beispiel zeigt, wie man IronOCR verwendet, um entweder ein gesamtes PDF-Dokument oder spezifische Seiten des Dokuments zu verarbeiten.

PDF-Datei (Eingabe)

class="content-img-align-center"> How to OCR a PDF - Figure 5

Ausgabe in der Konsole

class="content-img-align-center"> How to OCR a PDF - Figure 6

Sie können ein PDF mithilfe von IronOCR in ein auswählbares PDF umwandeln. Es ist sehr einfach und unkompliziert. Sehen Sie sich unten das Codebeispiel der PDF-Konvertierung an:

using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // Add PDF for processing
    Input.AddPdf("scan.pdf", "password");

    // Clean up twisted pages to improve OCR results
    Input.Deskew();

    // Run OCR and save as a searchable PDF
    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // Add PDF for processing
    Input.AddPdf("scan.pdf", "password");

    // Clean up twisted pages to improve OCR results
    Input.Deskew();

    // Run OCR and save as a searchable PDF
    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr

Private Ocr = New IronTesseract()

' Initialize OCR input
Using Input = New OcrInput()
	' Add PDF for processing
	Input.AddPdf("scan.pdf", "password")

	' Clean up twisted pages to improve OCR results
	Input.Deskew()

	' Run OCR and save as a searchable PDF
	Dim Result = Ocr.Read(Input)
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using
$vbLabelText   $csharpLabel

IronOCR bietet viele andere Werkzeuge und Funktionen. Sie können die Funktionen von IronOCR erkunden, indem Sie dem folgenden Link folgen.

Abschluss

Die IronOCR-Bibliothek hat mehrere Vorteile gegenüber anderen verfügbaren Bibliotheken auf dem Markt. Sie können ihre Funktionalität mit nur wenigen Zeilen Code ändern und erweitern, indem Sie Ihre eigenen Module hinzufügen. IronOCR kann derzeit Texte in über 125 Sprachen lesen. Es wurde entwickelt, um qualitativ hochwertigere und zuverlässigere Ergebnisse zu erzielen, während es viel weniger Zeit und Speicherressourcen benötigt als andere Bibliotheken.

IronOCR ist kostenlos für die Entwicklung. IronOCR bietet auch eine kostenlose Testversion für Tests in der Produktion an. Für weitere Details zu Preisen und einer kostenlosen Testversion von IronOCR folgen Sie dem Link.

class="content-img-align-center"> How to OCR a PDF - Figure 7

Kannaopat Udonpant
Software Ingenieur
Bevor er Software-Ingenieur wurde, absolvierte Kannapat ein PhD in Umweltressourcen an der Hokkaido University in Japan. Während seines Studiums wurde Kannapat auch Mitglied des Vehicle Robotics Laboratory, das Teil der Fakultät für Bioproduktionstechnik ist. Im Jahr 2022 nutzte er seine C#-Kenntnisse, um dem Engineering-Team von Iron Software ...
Weiterlesen