OCR-WERKZEUGE

Anleitung zur OCR einer PDF-Datei (kostenlose Online-Tools)

Veröffentlicht 25. Januar 2023
Teilen Sie:

OCR oder Optical Character Recognition ist ein Verfahren zur Umwandlung von Textinformationen in digitale Form. PDF OCR ist eine beliebte Anwendung, die zur Verbesserung von Geschäftsprozessen eingesetzt werden kann. Einer der Vorteile von PDF OCR ist, dass die Zugänglichkeit von Informationen verbessert werden kann. Dies ist besonders wichtig für Dokumente, die nicht in einem Format vorliegen, das jeder nutzen oder lesen kann. Mit PDF OCR kann eine Kopie des Dokuments erstellt werden, die in einem Format vorliegt, das von allen genutzt werden kann.

Eine weitere Anwendung von PDF OCR ist die Nachverfolgung von Dokumenten. Wenn ein Dokument archiviert, gescannt oder transkribiert wird, kann es schwierig sein, nachzuvollziehen, welche Version des Dokuments mit welcher Datei verbunden ist. Mit PDF OCR ist es möglich, die an einem Dokument vorgenommenen Änderungen zu verfolgen und festzustellen, welche Versionen mit welcher Datei verknüpft sind. Dies kann bei der Verwaltung von Dokumentenarchiven nützlich sein und den Verlust wichtiger Informationen verhindern.

In diesem Artikel erfahren Sie, wie Sie OCR für jede PDF-Datei mit Adobe Acrobat Pro verwenden können. In diesem Artikel wird auch die .NET OCR-Bibliothek IronOCR vorgestellt, die eine der effizientesten und funktionsreichsten Bibliotheken ist. Beginnen wir mit Adobe Acrobat Pro.

OCR einer PDF-Datei mit Adobe Acrobat Pro DC

OCR einer PDF-Datei - Abbildung 1

Adobe Acrobat Pro DC ist die Pro-Version von Adobe Acrobat Reader DC. Es ist das beliebteste und leistungsfähigste Werkzeug zur PDF-Bearbeitung. Mit dieser Software können Sie beliebige PDF-Dokumente erstellen, bearbeiten, unterschreiben und überprüfen. Außerdem können Sie PDFs in PowerPoint-Präsentationen, Word-Dokumente oder Excel-Dateien umwandeln. Es kann auch gescannte Dokumente bearbeiten.

Die neue Version von Acrobat DC ist auch ein Dokumentenscanner, der gescannte Dokumente mithilfe der OCR-Technologie schnell in digitale Dateien umwandeln kann. Er verfügt über eine optische Zeichenerkennung sowie über ein intelligentes Visitenkarten-Scanning, das Kontaktinformationen von Karten in Sekundenschnelle automatisch erkennt und speichert.

Neben der Möglichkeit, Text aus PDF-Dateien zu extrahieren, verfügt Acrobat Pro DC über zahlreiche Funktionen, die es zu einem wertvollen Werkzeug für die PDF-Transkription machen.

Sehen wir uns an, wie wir die OCR eines gescannten Dokuments mit Adobe Acrobat Pro nutzen können.

  • Öffnen Sie das gewünschte PDF-Dokument, in unserem Beispiel eine gescannte PDF-Datei, in Adobe Acrobat.
  • Wählen Sie im rechten Bereich des Dokuments "PDF bearbeiten".
    OCR einer PDF-Datei - Abbildung 2

  • Dadurch wird die Oberfläche des Adobe Reader OCR PDF-Tools geöffnet.
  • Klicken Sie auf die Schaltfläche "Bearbeiten" im oberen Menüband.
  • Damit lassen sich gescannte PDF-Dokumente in vollständig bearbeitbare PDF-Dokumente umwandeln. Sie können Text- und Bilddateien direkt in der PDF-Datei bearbeiten.

    OCR einer PDF-Datei - Abbildung 3

  • Sie können auch die Position des Textblocks, die Schriftart usw. ändern.

    Nachdem Sie die Änderungen vorgenommen haben, speichern Sie die Datei, und die Änderungen werden in das Dokument übernommen.

IronOCR: Eine .NET OCR-Bibliothek

OCR einer PDF-Datei - Abbildung 4

IronOCR ist eine .NET OCR-Bibliothek und ein OCR-Tool, das Textdokumente und Bilder lesen kann, indem es sie in ein maschinenlesbares Format umwandelt.

Diese Bibliothek zur optischen Zeichenerkennung wurde unter Berücksichtigung der folgenden Aspekte entwickelt:

  • Der Bedarf an einer robusten und präzisen OCR-Engine, die mit verschiedenen Sprachen verwendet werden kann, ohne dass eine externe Software erforderlich ist.
  • Der Bedarf an einer benutzerfreundlichen API, die auf verschiedenen Plattformen wie Windows, Linux und macOS funktioniert.
  • Der Bedarf an einer OCR-Engine, die leicht in verschiedene .NET-Anwendungen integriert werden kann und sowohl WPF- als auch Konsolenanwendungen unterstützt.

    IronOCR erleichtert Entwicklern die Erstellung von Software, die das Scannen von Dokumenten, die Extraktion von Text und Metadaten, die Indizierung gescannter Bilddateien, die Konvertierung von Bildern in durchsuchbare PDF-Dateien und die Konvertierung gescannter Dokumente in lesbaren Text unterstützt. IronOCR bietet eine Vielzahl von Optionen für die Kodierung, die Konvertierung von Bildformaten und die Texterkennung und -extraktion. IronOCR unterstützt 125 Sprachen.

    IronOCR bietet ein intuitives, robustes und genaues OCR-Verfahren zur Erkennung von Text aus gescannten Dokumenten, Fotos und Screenshots und reduziert gleichzeitig zeitaufwändige Aufgaben wie Seitensegmentierung und Layoutanalyse. Die Bibliothek wurde in C# entwickelt und ihr API-Design ist einfach und gut lesbar.

    Schauen wir uns einige Code-Beispiele mit IronOCR an:

Code-Beispiele

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' OCR entire document
	Input.AddPdf("example.pdf", "password")

	' Alternatively OCR selected page numbers
	Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

IronOCR bietet Ihnen die Möglichkeit, die OCR eines ganzen PDF-Dokuments oder eines ausgewählten Seitenbereichs einer PDF-Datei durchzuführen.

PDF-Datei (Eingabe)

OCR einer PDF-Datei - Abbildung 5

Ausgabe in der Konsole

OCR einer PDF-Datei - Abbildung 6

Mit IronOCR können Sie eine PDF-Datei in eine auswählbare PDF-Datei umwandeln; es ist sehr einfach und unkompliziert. Nachfolgend finden Sie ein Codefragment für die PDF-Konvertierung:

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf","password");

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf","password");

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	Input.AddPdf("scan.pdf","password")

	' clean up twisted pages
	Input.Deskew()

	Dim Result = Ocr.Read(Input)
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

IronOCR bietet viele weitere Tools und Funktionen. Sie können die IronOCR-Funktionen unter den folgenden Links entdecken link.

Schlussfolgerung

Die IronOCR-Bibliothek hat mehrere Vorteile gegenüber anderen auf dem Markt erhältlichen Bibliotheken. Sie können die Funktionalität ändern und erweitern, indem Sie Ihre eigenen Module mit nur wenigen Zeilen Code hinzufügen. IronOCR kann derzeit Texte in über 125 Sprachen lesen. Sie wurde entwickelt, um qualitativ hochwertigere und zuverlässigere Ergebnisse zu erzielen und dabei im Vergleich zu anderen Bibliotheken viel weniger Zeit und Speicherplatz zu verbrauchen.

IronOCR ist frei für die Entwicklung. IronOCR bietet auch eine kostenloser Test für Tests in der Produktion. Weitere Einzelheiten zu den Preisen und eine kostenlose Testversion von IronOCR finden Sie auf der link.

OCR einer PDF-Datei - Abbildung 7

< PREVIOUS
OCR aus PDF (kostenlose Online-Tools)
NÄCHSTES >
Beste OCR für Chinesisch (kostenlose & Online-Tools)

Sind Sie bereit, loszulegen? Version: 2024.10 gerade veröffentlicht

Gratis NuGet-Download Downloads insgesamt: 2,561,036 Lizenzen anzeigen >