Test in einer Live-Umgebung
Test in der Produktion ohne Wasserzeichen.
Funktioniert überall, wo Sie es brauchen.
OCR oder Optical Character Recognition ist ein Verfahren zur Umwandlung von Textinformationen in digitale Form. PDF OCR ist eine beliebte Anwendung, die zur Verbesserung von Geschäftsprozessen eingesetzt werden kann. Einer der Vorteile von PDF OCR ist, dass die Zugänglichkeit von Informationen verbessert werden kann. Dies ist besonders wichtig für Dokumente, die nicht in einem Format vorliegen, das jeder nutzen oder lesen kann. Mit PDF OCR kann eine Kopie des Dokuments erstellt werden, die in einem Format vorliegt, das von allen genutzt werden kann.
Eine weitere Anwendung von PDF OCR ist die Nachverfolgung von Dokumenten. Wenn ein Dokument archiviert, gescannt oder transkribiert wird, kann es schwierig sein, nachzuvollziehen, welche Version des Dokuments mit welcher Datei verbunden ist. Mit PDF OCR ist es möglich, die an einem Dokument vorgenommenen Änderungen zu verfolgen und festzustellen, welche Versionen mit welcher Datei verknüpft sind. Dies kann bei der Verwaltung von Dokumentenarchiven nützlich sein und den Verlust wichtiger Informationen verhindern.
In diesem Artikel erfahren Sie, wie Sie OCR für jede PDF-Datei mit Adobe Acrobat Pro verwenden können. In diesem Artikel wird auch die .NET OCR-Bibliothek IronOCR vorgestellt, die eine der effizientesten und funktionsreichsten Bibliotheken ist. Beginnen wir mit Adobe Acrobat Pro.
Adobe Acrobat Pro DC ist die Pro-Version von Adobe Acrobat Reader DC. Es ist das beliebteste und leistungsfähigste Werkzeug zur PDF-Bearbeitung. Mit dieser Software können Sie beliebige PDF-Dokumente erstellen, bearbeiten, unterschreiben und überprüfen. Außerdem können Sie PDFs in PowerPoint-Präsentationen, Word-Dokumente oder Excel-Dateien umwandeln. Es kann auch gescannte Dokumente bearbeiten.
Die neue Version von Acrobat DC ist auch ein Dokumentenscanner, der gescannte Dokumente mithilfe der OCR-Technologie schnell in digitale Dateien umwandeln kann. Er verfügt über eine optische Zeichenerkennung sowie über ein intelligentes Visitenkarten-Scanning, das Kontaktinformationen von Karten in Sekundenschnelle automatisch erkennt und speichert.
Neben der Möglichkeit, Text aus PDF-Dateien zu extrahieren, verfügt Acrobat Pro DC über zahlreiche Funktionen, die es zu einem wertvollen Werkzeug für die PDF-Transkription machen.
Sehen wir uns an, wie wir die OCR eines gescannten Dokuments mit Adobe Acrobat Pro nutzen können.
Damit lassen sich gescannte PDF-Dokumente in vollständig bearbeitbare PDF-Dokumente umwandeln. Sie können Text- und Bilddateien direkt in der PDF-Datei bearbeiten.
Sie können auch die Position des Textblocks, die Schriftart usw. ändern.
Nachdem Sie die Änderungen vorgenommen haben, speichern Sie die Datei, und die Änderungen werden in das Dokument übernommen.
IronOCR ist eine .NET OCR-Bibliothek und ein OCR-Tool, das Textdokumente und Bilder lesen kann, indem es sie in ein maschinenlesbares Format umwandelt.
Diese Bibliothek zur optischen Zeichenerkennung wurde unter Berücksichtigung der folgenden Aspekte entwickelt:
Der Bedarf an einer OCR-Engine, die leicht in verschiedene .NET-Anwendungen integriert werden kann und sowohl WPF- als auch Konsolenanwendungen unterstützt.
IronOCR erleichtert Entwicklern die Erstellung von Software, die das Scannen von Dokumenten, die Extraktion von Text und Metadaten, die Indizierung gescannter Bilddateien, die Konvertierung von Bildern in durchsuchbare PDF-Dateien und die Konvertierung gescannter Dokumente in lesbaren Text unterstützt. IronOCR bietet eine Vielzahl von Optionen für die Kodierung, die Konvertierung von Bildformaten und die Texterkennung und -extraktion. IronOCR unterstützt 125 Sprachen.
IronOCR bietet ein intuitives, robustes und genaues OCR-Verfahren zur Erkennung von Text aus gescannten Dokumenten, Fotos und Screenshots und reduziert gleichzeitig zeitaufwändige Aufgaben wie Seitensegmentierung und Layoutanalyse. Die Bibliothek wurde in C# entwickelt und ihr API-Design ist einfach und gut lesbar.
Schauen wir uns einige Code-Beispiele mit IronOCR an:
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
// Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
// Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
' OCR entire document
Input.AddPdf("example.pdf", "password")
' Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
IronOCR bietet Ihnen die Möglichkeit, die OCR eines ganzen PDF-Dokuments oder eines ausgewählten Seitenbereichs einer PDF-Datei durchzuführen.
Mit IronOCR können Sie eine PDF-Datei in eine auswählbare PDF-Datei umwandeln; es ist sehr einfach und unkompliziert. Nachfolgend finden Sie ein Codefragment für die PDF-Konvertierung:
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf","password");
// clean up twisted pages
Input.Deskew();
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf","password");
// clean up twisted pages
Input.Deskew();
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
Input.AddPdf("scan.pdf","password")
' clean up twisted pages
Input.Deskew()
Dim Result = Ocr.Read(Input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
IronOCR bietet viele weitere Tools und Funktionen. Sie können die IronOCR-Funktionen unter den folgenden Links entdecken link.
Die IronOCR-Bibliothek hat mehrere Vorteile gegenüber anderen auf dem Markt erhältlichen Bibliotheken. Sie können die Funktionalität ändern und erweitern, indem Sie Ihre eigenen Module mit nur wenigen Zeilen Code hinzufügen. IronOCR kann derzeit Texte in über 125 Sprachen lesen. Sie wurde entwickelt, um qualitativ hochwertigere und zuverlässigere Ergebnisse zu erzielen und dabei im Vergleich zu anderen Bibliotheken viel weniger Zeit und Speicherplatz zu verbrauchen.
IronOCR ist frei für die Entwicklung. IronOCR bietet auch eine kostenloser Test für Tests in der Produktion. Weitere Einzelheiten zu den Preisen und eine kostenlose Testversion von IronOCR finden Sie auf der link.
9 .NET API-Produkte für Ihre Bürodokumente