Zum Fußzeileninhalt springen
OCR-WERKZEUGE

OCR aus PDF (Kostenlose Online-Tools)

Optische Zeichenerkennung, oder OCR, ist eine Technologie zur Texterkennung in Bildern. Diese Technologie wurde entwickelt, um gedruckten Text oder eine Bilddatei zu scannen und diese auf Computern zu erkennen. Das liegt daran, dass heute viele Dinge digital sind, wie E-Mails oder Bücher. Die OCR-Technologie hat sich jedoch zu etwas Komplexerem entwickelt, mit spezialisierten Algorithmen, die in der Lage sind, Text in vielen verschiedenen Schriftarten zu erkennen, selbst wenn diese durch Rauschen oder andere häufige Verzerrungen wie JPEG-Kompression verzerrt wurden. OCR kann auch handschriftliche Texte auf Papier mit 98% Genauigkeit lesen.

Text, der mit OCR gescannt wurde, kann bearbeitet, indexiert, durchsucht, ausgedruckt und archiviert werden. OCR-Software wird häufig in den Bereichen Gesundheitswesen, Pharmazie, Versicherungen und Recht eingesetzt. Sie hilft dabei, Papierdokumente in digitale Dokumente umzuwandeln, sodass sie leichter wiederverwendet und mit anderen geteilt werden können.

Sehen wir uns an, wie Sie OCR von PDF-Dateien mit verschiedenen Werkzeugen durchführen können.

Adobe Acrobat Pro

Adobe ist das Unternehmen, das zunächst PDF entwickelt hat. Sie bieten eine schnelle, effiziente OCR-Engine, die jedes PDF-Dokument bearbeiten kann, das Sie ihm geben. Es ist eine der leistungsstärksten OCR-Engines auf dem Markt, und wenn Sie viele PDFs zu bearbeiten haben, sollten Sie Adobe Acrobat DC kaufen. Dieses Software wurde so entwickelt, dass es jedes textbasierte Dokument in ein PDF-Format mit hoher Genauigkeit umwandeln kann. Es behält auch das Schriftbild des Originaldokuments bei, indem es seinen eigenen Schriftgenerator verwendet.

Sehen wir uns an, wie wir PDF-OCR mit Adobe Acrobat durchführen können:

  • Öffnen Sie die Datei in Adobe Acrobat Pro DC.
  • Klicken Sie im rechten Bedienfeld auf die Option "PDF bearbeiten".

    class="content-img-align-center"> OCR From PDF Free Online Tools - Figure 1

  • Es wird eine PDF-Datei unter Verwendung seiner OCR-Fähigkeiten in ein bearbeitbares PDF umwandeln.
  • Nun können Sie jede beliebige Textdatei bearbeiten und Bilddateien in den Dokumenten leicht ändern.

    class="content-img-align-center"> OCR From PDF Free Online Tools - Figure 2

  • Sie können die Datei speichern, indem Sie "Datei > Speichern unter" wählen und dem neuen PDF-Dokument einen passenden Namen geben.

Sie können OCR von mehreren gescannten PDF-Dokumenten gleichzeitig leicht durchführen.

Sejda

Sejda ist OCR-fähige PDF-Bearbeitungssoftware, die in der Cloud gehostet oder als Desktop-Anwendung für macOS, Windows oder Linux heruntergeladen werden kann. Sejda ermöglicht es Benutzern, PDF-Dateien zu komprimieren, zu bearbeiten, digital zu unterschreiben, zusammenzuführen und auszufüllen. Dateien in verschiedenen Formaten, einschließlich JPEG und Excel, können beispielsweise in PDF-Dateien umgewandelt werden. PDFs können ebenso in andere Formate wie Word- und PowerPoint-Dokumente umgewandelt werden. Sehen wir uns an, wie Sie OCR von PDF-Dokumenten mit Sejda OCR durchführen können.

  • Open Sejda OCR website.
  • Klicken Sie auf die Schaltfläche "PDF-Datei hochladen", um Dateien hochzuladen, oder ziehen und legen Sie Dateien von Ihrem Computer ab.
  • Nach dem Hochladen wird der Dateiname angezeigt. Wählen Sie die Sprache des Dokuments aus.

    class="content-img-align-center"> OCR From PDF Free Online Tools - Figure 3

  • Nach der Sprachauswahl müssen Sie das Ausgabeformat wählen. Sie können "PDF" oder "Text" wählen. Nachdem Sie das Ausgabeformat festgelegt haben, klicken Sie auf die Schaltfläche "Text auf allen Seiten erkennen". Es beginnt, den Text zu extrahieren.

    class="content-img-align-center"> OCR From PDF Free Online Tools - Figure 4

  • Wenn der Vorgang abgeschlossen ist, können Sie den extrahierten Text herunterladen.

    class="content-img-align-center"> OCR From PDF Free Online Tools - Figure 5

SodaPDF

SodaPDF OCR ist kostenlose Online-OCR-Software, die Text aus Bildern extrahieren kann. Es ist ein PDF-OCR-Konvertierungstool, das gescannte Dokumente, Faxe und andere Ausdrucke in bearbeitbare Texte, PDFs und durchsuchbare PDFs umwandelt. Der häufigste Anwendungsfall von SodaPDF OCR ist die Umwandlung gescannter Dokumente oder Faxe in bearbeitbare Dateien. Es ist kostenlose Online-OCR-Software. Alle hochgeladenen Dokumente werden nach einer bestimmten Zeit automatisch vom Server gelöscht. Es hat mehrere Funktionen wie das Konvertieren von PDF in Word, das dann in Microsoft Word geöffnet werden kann.

Sehen wir uns an, wie wir OCR auf einem PDF mit SodaPDF durchführen können:

  • Open the SodaPDF website.
  • Klicken Sie auf die Schaltfläche "Datei auswählen" und wählen Sie die gewünschten PDF-Dokumente zum Hochladen aus.
  • Nach dem Hochladen wird Ihnen eine Benutzeroberfläche zur Bearbeitung der PDF-Texte und -Bilder angezeigt. Sie können die Datei mit der Download-Schaltfläche herunterladen.

    class="content-img-align-center"> OCR From PDF Free Online Tools - Figure 6

IronOCR: .NET OCR-Bibliothek

IronOCR ist eine robuste Bibliothek für OCR im .NET Framework. Sie bietet eine leistungsstarke API zur Arbeit mit Text und Bildern und bietet Funktionen wie Echtzeiterkennung, Felderkennung und optische Zeichenerkennung für gescannte PDF-Dateien. IronPDF kann auch gescannte Dokumente bearbeiten.

IronOCR gibt Entwicklern die Möglichkeit zur Texterkennung in ihren Anwendungen. Es kann für verschiedene Zwecke verwendet werden, wie das Umwandeln gescannter Dokumente in digitale Formate oder das Erkennen von Bildunterschriften. Die IronOCR .NET-Bibliothek bietet eine einfach zu verwendende, niedrige Schnittstelle zum IronOCR SDK. Darüber hinaus enthält es eine Bildverarbeitungspipeline, die automatisch Bilder mit niedriger DPI bearbeitet und Text aus PDF-Dokumenten extrahiert.

Sehen wir uns an, wie wir OCR einer PDF-Datei mit dem OCR-Tool durchführen können:

OCR eines vollständigen PDF-Dokuments

Der folgende Code kann OCR an einem gesamten PDF-Dokument durchführen.

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the entire PDF document for OCR processing
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the entire PDF document for OCR processing
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' Add the entire PDF document for OCR processing
	Input.AddPdf("example.pdf", "password")

	Dim Result = Ocr.Read(Input)
	' Print the extracted text to the console
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

OCR ausgewählter Seiten eines PDF

Sie können OCR auf ausgewählten PDF-Seiten durchführen, indem Sie die Funktion AddPdfPages verwenden.

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add specific pages of the PDF document for OCR processing
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add specific pages of the PDF document for OCR processing
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' Add specific pages of the PDF document for OCR processing
	Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	Dim Result = Ocr.Read(Input)
	' Print the extracted text to the console
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

PDF in durchsuchbares PDF konvertieren

Sie können eine PDF-Datei in eine durchsuchbare PDF-Datei konvertieren, indem Sie IronOCR mit der Funktion SaveAsSearchablePdf verwenden.

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the PDF for processing and specify the password if any
    Input.AddPdf("scan.pdf", "password");

    // Correct twisted or skewed pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    // Save the processed result as a searchable PDF
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the PDF for processing and specify the password if any
    Input.AddPdf("scan.pdf", "password");

    // Correct twisted or skewed pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    // Save the processed result as a searchable PDF
    Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' Add the PDF for processing and specify the password if any
	Input.AddPdf("scan.pdf", "password")

	' Correct twisted or skewed pages
	Input.Deskew()

	Dim Result = Ocr.Read(Input)
	' Save the processed result as a searchable PDF
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using
$vbLabelText   $csharpLabel

Abschluss

Wir haben einige großartige Softwaretools erkundet, um optische Zeichenerkennung durchzuführen. Diese Tools ermöglichen es Ihnen, programmgesteuert Text zu erkennen und durchsuchbare und bearbeitbare PDFs zu erstellen.

Wenn Sie im .NET Framework schreiben, ist IronOCR unsere Empfehlung. IronOCR ermöglicht es Ihnen, leicht OCR im .NET Framework durchzuführen; es ist leistungsstark und kann daher leicht verwendet werden, selbst wenn das Originaldokument beschädigt oder verzerrt wurde, etwa durch Wasserschäden.

Ein weiterer Anwendungsfall ist das Umwandeln alter Papierformulare, die von Hand ausgefüllt wurden, wie Rechnungen und Verkaufsbelege, in digitale Versionen. Dies ermöglicht es, diese Dokumente automatisch von Buchhaltungssoftware zu verarbeiten, wodurch Genauigkeit und Effizienz erhöht werden.

Kannaopat Udonpant
Software Ingenieur
Bevor er Software-Ingenieur wurde, absolvierte Kannapat ein PhD in Umweltressourcen an der Hokkaido University in Japan. Während seines Studiums wurde Kannapat auch Mitglied des Vehicle Robotics Laboratory, das Teil der Fakultät für Bioproduktionstechnik ist. Im Jahr 2022 nutzte er seine C#-Kenntnisse, um dem Engineering-Team von Iron Software ...
Weiterlesen