OCR-WERKZEUGE

OCR aus PDF (kostenlose Online-Tools)

Veröffentlicht 15. Januar 2023
Teilen Sie:

Optical Character Recognition (OCR) ist eine Technologie zur Erkennung von Text in Bildern. Diese Technologie wurde entwickelt, um gedruckten Text oder eine Bilddatei zu scannen und auf Computern zu erkennen. Das liegt daran, dass viele Dinge heute digital sind, wie z. B. E-Mails oder Bücher. Die OCR-Technologie hat sich jedoch zu einer anspruchsvolleren Technologie mit speziellen Algorithmen entwickelt, die in der Lage sind, Text in vielen verschiedenen Schriftarten zu erkennen, selbst wenn diese durch Rauschen oder andere übliche Verzerrungen wie JPEG-Komprimierung verfälscht worden sind. OCR kann auch die Handschrift auf Papier mit 98 % Genauigkeit lesen.

Der mit OCR gescannte Text kann dann bearbeitet, indiziert, durchsucht, ausgedruckt und archiviert werden. OCR-Software ist in der Gesundheits-, Pharma-, Versicherungs- und Rechtsbranche weit verbreitet. Es hilft bei der Umwandlung von Papierdokumenten in digitale Dokumente, so dass sie leichter wiederverwendet und mit anderen geteilt werden können.

Sehen wir uns an, wie Sie OCR von PDF-Dateien mit verschiedenen Tools durchführen können. *# Adobe Acrobat Pro

Adobe ist das Unternehmen, das PDF ursprünglich entwickelt hat. Sie bieten eine schnelle, effiziente OCR-Engine, die jedes PDF-Dokument bearbeiten kann, das Sie ihr vorlegen. Es ist eine der leistungsfähigsten OCR-Engines auf dem Markt, und wenn Sie viele PDFs bearbeiten müssen, sollten Sie Adobe Acrobat DC kaufen. Diese Software wurde so konzipiert, dass sie jedes textbasierte Dokument mit großer Genauigkeit in das PDF-Format konvertieren kann. Außerdem wird die Schriftart des Originaldokuments mithilfe des Generators für benutzerdefinierte Schriften beibehalten.

Sehen wir uns an, wie wir PDF OCR mit Adobe Acrobat durchführen können:

  • Öffnen Sie die Datei in Adobe Acrobat Pro DC.
  • Klicken Sie im rechten Fenster auf die Option "PDF bearbeiten".
    OCR von PDF Kostenlose Online-Tools - Abbildung 1

  • Es konvertiert eine PDF-Datei mithilfe seiner OCR-Funktionen in eine bearbeitbare PDF-Datei.
  • Jetzt können Sie jeden Text bearbeiten und Bilddateien in den Dokumenten problemlos ändern.

    OCR von PDF Kostenlose Online-Tools - Abbildung 2

  • Sie können die Datei speichern, indem Sie "Datei > Speichern unter" wählen und dem neuen PDF-Dokument einen geeigneten Namen geben.

    Sie können ganz einfach OCR für mehrere gescannte PDF-Dokumente auf einmal durchführen.

Sejda

Sejda ist eine OCR-fähige PDF-Bearbeitungssoftware, die in der Cloud gehostet oder als Desktop-Anwendung auf macOS, Windows oder Linux heruntergeladen werden kann. Mit Sejda können Benutzer PDF-Dateien komprimieren, bearbeiten, digital unterschreiben, zusammenführen und ausfüllen. Dateien in verschiedenen Formaten, z. B. JPEG und Excel, können in PDF-Dateien umgewandelt werden. PDFs können auch in andere Formate wie Word- und PowerPoint-Dokumente umgewandelt werden. Sehen wir uns an, wie Sie OCR von PDF-Dokumenten mit Sejda OCR durchführen können.

  • Öffnen Sie Website der OCR Sejda.
  • Klicken Sie auf die Schaltfläche "PDF-Datei hochladen", um Dateien hochzuladen, oder ziehen Sie Dateien per Drag & Drop von Ihrem Computer.
  • Nach dem Hochladen wird der Name der hochgeladenen Datei angezeigt. Wählen Sie die Sprache des Dokuments.

    OCR von PDF Kostenlose Online-Tools - Abbildung 3

  • Nachdem Sie die Sprache ausgewählt haben, müssen Sie das Ausgabeformat wählen. Sie können "PDF" oder "Text" wählen. Nachdem Sie das Ausgabeformat festgelegt haben, klicken Sie auf die Schaltfläche "Text auf allen Seiten erkennen". Es beginnt mit der Extraktion von Text.

    OCR von PDF Kostenlose Online-Tools - Abbildung 4

  • Wenn der Vorgang abgeschlossen ist, können Sie den extrahierten Text herunterladen.
    OCR von PDF Kostenlose Online-Tools - Abbildung 5

SodaPDF

SodaPDF OCR ist eine kostenlose Online-OCR-Software, die Text aus Bildern extrahieren kann. Es ist ein PDF-OCR-Konvertierungstool, das gescannte Dokumente, Faxe und andere Ausdrucke in bearbeitbaren Text, PDFs und durchsuchbare PDFs umwandelt. Der häufigste Anwendungsfall von SodaPDF OCR ist die Umwandlung von gescannten Dokumenten oder Faxen in bearbeitbare Dateien. Es ist eine kostenlose Online-OCR-Software. Alle hochgeladenen Dokumente werden nach einer bestimmten Zeit automatisch vom Server gelöscht. Es verfügt über mehrere Funktionen wie die Umwandlung von PDF in Word, die dann mit Microsoft Word geöffnet werden können.

Sehen wir uns an, wie wir mit SodaPDF eine OCR in einem PDF durchführen können:

  • Öffnen Sie die SodaPDF website.
  • Klicken Sie auf die Schaltfläche "Datei auswählen" und wählen Sie die gewünschten PDF-Dokumente zum Hochladen aus.
  • Nach dem Hochladen steht Ihnen eine Benutzeroberfläche zur Verfügung, mit der Sie den PDF-Text und die Bilder bearbeiten können. Sie können die Datei über die Schaltfläche Download herunterladen.
    OCR von PDF Kostenlose Online-Tools - Abbildung 6

IronOCR: .NET OCR-Bibliothek

IronOCR ist die beste Bibliothek für OCR im .NET-Framework. Es bietet eine robuste API für die Arbeit mit Text und Bildern sowie viele Funktionen wie Echtzeit-Erkennung, Felderkennung, optische Zeichenerkennung für gescannte PDF-Dateien und viele andere. IronPDF kann auch gescannte Dokumente bearbeiten.

IronOCR gibt Entwicklern die Möglichkeit der Texterkennung in ihren Anwendungen. Es kann für verschiedene Zwecke eingesetzt werden, z. B. zur Umwandlung gescannter Dokumente in digitale Formate oder zur Erkennung von Bildunterschriften. Die IronOCR for .NET Library bietet eine einfach zu bedienende Low-Level-Schnittstelle zum IronOCR SDK. Darüber hinaus verfügt es über einige Funktionen, die es Entwicklern ermöglichen, bequemer mit IronOCR zu arbeiten. So enthält diese Bibliothek beispielsweise eine Bildverarbeitungspipeline, die automatisch Bilder mit niedrigem DPI-Wert verarbeitet und Text aus PDF-Dokumenten extrahiert.

Sehen wir uns an, wie wir mit dem OCR-Werkzeug eine PDF-Datei OCR-erfassen können:

OCR einer vollständigen PDF-Datei

Der folgende Code kann OCR für ein ganzes PDF-Dokument durchführen.

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' OCR entire document
	Input.AddPdf("example.pdf", "password")

	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

OCR von ausgewählten Seiten einer PDF-Datei

Mit der Funktion "AddPdfPages" können Sie OCR auf ausgewählten PDF-Seiten durchführen.

using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	' Alternatively OCR selected page numbers
	Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

PDF in durchsuchbare PDF konvertieren

Sie können eine PDF-Datei mit IronOCR in eine durchsuchbare PDF-Datei umwandeln, indem Sie die Funktion SaveAsSearchablePdf verwenden.

using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf", "password")

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf", "password")

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr

Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddPdf("scan.pdf", "password") Input.Deskew()

	Dim Result = Ocr.Read(Input)
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

Schlussfolgerung

Wir haben einige großartige Software-Tools für die optische Zeichenerkennung erkundet. Mit diesen Werkzeugen können Sie programmatisch Text erkennen und durchsuchbare und bearbeitbare PDF-Dateien erstellen.

Wenn Sie im .NET-Framework schreiben, ist IronOCR unsere Empfehlung. IronOCR ermöglicht Ihnen die einfache Durchführung von OCR im .NET-Framework; es ist leistungsstark und kann daher auch dann verwendet werden, wenn das Originaldokument beschädigt oder verzerrt ist, beispielsweise durch einen Wasserschaden.

Ein weiterer Anwendungsfall ist die Umwandlung alter, handschriftlich ausgefüllter Papierformulare, wie Rechnungen und Kaufbelege, in digitale Versionen. Dadurch können diese Dokumente automatisch von der Buchhaltungssoftware verarbeitet werden, was die Genauigkeit und Effizienz erhöht.

< PREVIOUS
Tesseract installieren (Schritt-für-Schritt-Anleitung mit Bildern)
NÄCHSTES >
Anleitung zur OCR einer PDF-Datei (kostenlose Online-Tools)

Sind Sie bereit, loszulegen? Version: 2024.10 gerade veröffentlicht

Gratis NuGet-Download Downloads insgesamt: 2,561,036 Lizenzen anzeigen >