Test in einer Live-Umgebung
Test in der Produktion ohne Wasserzeichen.
Funktioniert überall, wo Sie es brauchen.
Optical Character Recognition (OCR) ist eine Technologie zur Erkennung von Text in Bildern. Diese Technologie wurde entwickelt, um gedruckten Text oder eine Bilddatei zu scannen und auf Computern zu erkennen. Das liegt daran, dass viele Dinge heute digital sind, wie z. B. E-Mails oder Bücher. Die OCR-Technologie hat sich jedoch zu einer anspruchsvolleren Technologie mit speziellen Algorithmen entwickelt, die in der Lage sind, Text in vielen verschiedenen Schriftarten zu erkennen, selbst wenn diese durch Rauschen oder andere übliche Verzerrungen wie JPEG-Komprimierung verfälscht worden sind. OCR kann auch die Handschrift auf Papier mit 98 % Genauigkeit lesen.
Der mit OCR gescannte Text kann dann bearbeitet, indiziert, durchsucht, ausgedruckt und archiviert werden. OCR-Software ist in der Gesundheits-, Pharma-, Versicherungs- und Rechtsbranche weit verbreitet. Es hilft bei der Umwandlung von Papierdokumenten in digitale Dokumente, so dass sie leichter wiederverwendet und mit anderen geteilt werden können.
Sehen wir uns an, wie Sie OCR von PDF-Dateien mit verschiedenen Tools durchführen können. *# Adobe Acrobat Pro
Adobe ist das Unternehmen, das PDF ursprünglich entwickelt hat. Sie bieten eine schnelle, effiziente OCR-Engine, die jedes PDF-Dokument bearbeiten kann, das Sie ihr vorlegen. Es ist eine der leistungsfähigsten OCR-Engines auf dem Markt, und wenn Sie viele PDFs bearbeiten müssen, sollten Sie Adobe Acrobat DC kaufen. Diese Software wurde so konzipiert, dass sie jedes textbasierte Dokument mit großer Genauigkeit in das PDF-Format konvertieren kann. Außerdem wird die Schriftart des Originaldokuments mithilfe des Generators für benutzerdefinierte Schriften beibehalten.
Sehen wir uns an, wie wir PDF OCR mit Adobe Acrobat durchführen können:
Jetzt können Sie jeden Text bearbeiten und Bilddateien in den Dokumenten problemlos ändern.
Sie können die Datei speichern, indem Sie "Datei > Speichern unter" wählen und dem neuen PDF-Dokument einen geeigneten Namen geben.
Sie können ganz einfach OCR für mehrere gescannte PDF-Dokumente auf einmal durchführen.
Sejda ist eine OCR-fähige PDF-Bearbeitungssoftware, die in der Cloud gehostet oder als Desktop-Anwendung auf macOS, Windows oder Linux heruntergeladen werden kann. Mit Sejda können Benutzer PDF-Dateien komprimieren, bearbeiten, digital unterschreiben, zusammenführen und ausfüllen. Dateien in verschiedenen Formaten, z. B. JPEG und Excel, können in PDF-Dateien umgewandelt werden. PDFs können auch in andere Formate wie Word- und PowerPoint-Dokumente umgewandelt werden. Sehen wir uns an, wie Sie OCR von PDF-Dokumenten mit Sejda OCR durchführen können.
Nach dem Hochladen wird der Name der hochgeladenen Datei angezeigt. Wählen Sie die Sprache des Dokuments.
Nachdem Sie die Sprache ausgewählt haben, müssen Sie das Ausgabeformat wählen. Sie können "PDF" oder "Text" wählen. Nachdem Sie das Ausgabeformat festgelegt haben, klicken Sie auf die Schaltfläche "Text auf allen Seiten erkennen". Es beginnt mit der Extraktion von Text.
SodaPDF OCR ist eine kostenlose Online-OCR-Software, die Text aus Bildern extrahieren kann. Es ist ein PDF-OCR-Konvertierungstool, das gescannte Dokumente, Faxe und andere Ausdrucke in bearbeitbaren Text, PDFs und durchsuchbare PDFs umwandelt. Der häufigste Anwendungsfall von SodaPDF OCR ist die Umwandlung von gescannten Dokumenten oder Faxen in bearbeitbare Dateien. Es ist eine kostenlose Online-OCR-Software. Alle hochgeladenen Dokumente werden nach einer bestimmten Zeit automatisch vom Server gelöscht. Es verfügt über mehrere Funktionen wie die Umwandlung von PDF in Word, die dann mit Microsoft Word geöffnet werden können.
Sehen wir uns an, wie wir mit SodaPDF eine OCR in einem PDF durchführen können:
IronOCR ist die beste Bibliothek für OCR im .NET-Framework. Es bietet eine robuste API für die Arbeit mit Text und Bildern sowie viele Funktionen wie Echtzeit-Erkennung, Felderkennung, optische Zeichenerkennung für gescannte PDF-Dateien und viele andere. IronPDF kann auch gescannte Dokumente bearbeiten.
IronOCR gibt Entwicklern die Möglichkeit der Texterkennung in ihren Anwendungen. Es kann für verschiedene Zwecke eingesetzt werden, z. B. zur Umwandlung gescannter Dokumente in digitale Formate oder zur Erkennung von Bildunterschriften. Die IronOCR for .NET Library bietet eine einfach zu bedienende Low-Level-Schnittstelle zum IronOCR SDK. Darüber hinaus verfügt es über einige Funktionen, die es Entwicklern ermöglichen, bequemer mit IronOCR zu arbeiten. So enthält diese Bibliothek beispielsweise eine Bildverarbeitungspipeline, die automatisch Bilder mit niedrigem DPI-Wert verarbeitet und Text aus PDF-Dokumenten extrahiert.
Sehen wir uns an, wie wir mit dem OCR-Werkzeug eine PDF-Datei OCR-erfassen können:
Der folgende Code kann OCR für ein ganzes PDF-Dokument durchführen.
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
' OCR entire document
Input.AddPdf("example.pdf", "password")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
Mit der Funktion "AddPdfPages" können Sie OCR auf ausgewählten PDF-Seiten durchführen.
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
' Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
Sie können eine PDF-Datei mit IronOCR in eine durchsuchbare PDF-Datei umwandeln, indem Sie die Funktion SaveAsSearchablePdf
verwenden.
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf", "password")
// clean up twisted pages
Input.Deskew();
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf", "password")
// clean up twisted pages
Input.Deskew();
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
Input.AddPdf("scan.pdf", "password") Input.Deskew()
Dim Result = Ocr.Read(Input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
Wir haben einige großartige Software-Tools für die optische Zeichenerkennung erkundet. Mit diesen Werkzeugen können Sie programmatisch Text erkennen und durchsuchbare und bearbeitbare PDF-Dateien erstellen.
Wenn Sie im .NET-Framework schreiben, ist IronOCR unsere Empfehlung. IronOCR ermöglicht Ihnen die einfache Durchführung von OCR im .NET-Framework; es ist leistungsstark und kann daher auch dann verwendet werden, wenn das Originaldokument beschädigt oder verzerrt ist, beispielsweise durch einen Wasserschaden.
Ein weiterer Anwendungsfall ist die Umwandlung alter, handschriftlich ausgefüllter Papierformulare, wie Rechnungen und Kaufbelege, in digitale Versionen. Dadurch können diese Dokumente automatisch von der Buchhaltungssoftware verarbeitet werden, was die Genauigkeit und Effizienz erhöht.
9 .NET API-Produkte für Ihre Bürodokumente