PDF OCR Textextraktion

VB C#

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

using var ocrInput = new OcrInput();

// OCR entire document
ocrInput.LoadPdf("example.pdf", Password: "password");

int[] pages = { 1, 2, 3, 4, 5 };

// Alternatively OCR selected page numbers
ocrInput.LoadPdfPages("example.pdf", pages, Password: "password");

var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);

Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()

Private ocrInput = New OcrInput()

' OCR entire document
ocrInput.LoadPdf("example.pdf", Password:= "password")

Dim pages() As Integer = { 1, 2, 3, 4, 5 }

' Alternatively OCR selected page numbers
ocrInput.LoadPdfPages("example.pdf", pages, Password:= "password")

Dim ocrResult = ocrTesseract.Read(ocrInput)
Console.WriteLine(ocrResult.Text)

Install-Package IronOcr

PDF OCR Textextraktion

Iron Tesseract kann viele Bildformate sowie PDF-Dokumente lesen. Diese Funktion ist mit herkömmlichen kostenlosen Tesseract-Engines nicht möglich.

OcrInput bietet die Möglichkeit, PDF-Eigenschaften automatisch zu korrigieren, wenn die Scans von schlechter Qualität sind.

Entwickler können festlegen, ob ein gesamtes PDF, eine Auswahl von Seiten oder ein einzelner Ausschnittbereich gelesen werden soll.

So führen Sie OCR für PDF-Dateien in C# durch

C#-Bibliothek zum OCR-Scannen von PDF-Dateien herunterladen
Verwenden Sie AddPdf Methode zum Hinzufügen eines PDF-Dokuments
Bestimmte Seiten eines PDF-Dokuments mit AddPdfPages Methode
Verwenden Sie Read Methode, um OCR auf hinzugefügte PDF-Dateien anzuwenden
Alle QR-Code-Werte in der Barcodes Eigenschaft anzeigen. Rufen Sie die Eigenschaft "Text" auf, um das OCR-Ergebnis abzurufen

C# PDF-OCR

Viele OCR-Tools funktionieren unter optimalen Bedingungen einwandfrei, aber wenn Sie eine Lösung benötigen, die unter allen Bedingungen mit verbesserter Stabilität und Genauigkeit arbeitet, ist die IronOCR-Lösung zur Textextraktion genau das Richtige für Sie.

IronOCR für die Textextraktion wurde von Grund auf neu entwickelt und ist in der Lage, reale Bilder mit einer Genauigkeit von 99 Prozent zu konvertieren.

IronTesseract, unsere native C#-OCR-Bibliothek, kann Zeichen auf nahezu menschliche Weise aus realen Bildern erkennen, die nicht immer von guter Qualität und manchmal verzerrt sind.

Unsere OCR-Funktion ermöglicht die automatische Korrektur von PDF- oder Bildmerkmalen, falls die Scans von schlechter Qualität sind.

Wenn ich Ihnen die derzeit beste OCR-Lösung vorstelle, werden Sie sich selbst davon überzeugen können.

Warum IronOCR für die Textextraktion aus Bildern oder PDF-Dateien?

Die Entscheidung für die IronOCR-Lösung zur Verwaltung von Tesseract ist naheliegend, wenn man ihre einzigartigen Fähigkeiten betrachtet, zu denen unter anderem Folgendes gehört:

Die IronOCR-Engine zur OCR-Textextraktion aus PDF-Dateien funktioniert sofort und ohne weitere Anpassungen in reinem .NET
Es ist nicht erforderlich, dass Tesseract auf Ihrem Rechner installiert ist.
Es funktioniert hervorragend mit den neuesten Engines: Tesseract 5 (sowie Tesseract 4 und 3).
Es ist für jedes .NET-Projekt verfügbar: .NET Framework 4.5+, .NET Standard 2+ sowie .NET Core 2, 3 und 5!
Es bietet eine verbesserte Genauigkeit und Geschwindigkeit im Vergleich zu anderen Open-Source-Tesseract-Versionen.
IronOCR unterstützt die Entwicklungsplattformen Xamarin, Mono, Azure und Docker.
Sie können komplexe Tesseract-Wörterbuchsysteme mithilfe von NuGet-Paketen verwalten.
Es kann Text aus PDFs, MultiFrame-TIFFs und allen gängigen Bilddateien extrahieren, ohne dass zusätzliche Anpassungen erforderlich sind.
Es kann qualitativ minderwertige und verzerrte Bildscans korrigieren, um die besten Ergebnisse für Ihr Textextraktionsprojekt zu erzielen.

Haben Sie Scans von geringer Qualität? Kein Problem!

IronOCR sticht bei OCR-Aufgaben auf einem höheren Niveau hervor. In der Praxis sind viele ähnliche Produkte darauf ausgelegt, gut mit maschinell gedruckten, hochauflösenden und makellosen Texten oder Bildern zu funktionieren, sodass sie in realen Anwendungsfällen ungenau werden oder versagen. Dies ist bei IronOCR jedoch nicht der Fall.

IronOCR glänzt bei der Korrektur unvollständiger Dokumente. Sie kann schräge gescannte Bilder begradigen und Fotos mit geringer Qualität verbessern, sodass sie zu durchsuchbaren PDF-Dokumenten oder Bildern werden. Das ist es, was unser Produkt von anderen abhebt.

Passen Sie die Leistung von IronOCR an Ihren Arbeitsablauf an

Mit der OCR-Lösung von Iron Software können Sie die Leistung Ihrer Textextraktionsaufgaben optimieren, um das richtige Gleichgewicht für Ihren Arbeitsablauf zu finden. Wir wissen, dass dies für viele Nutzer und Entwickler sehr wichtig ist, daher haben wir unsere OCR-Lösung so konzipiert, dass sie leistungsanpassbar und flexibel ist.

Ein sehr wichtiger Faktor, der die Geschwindigkeit eines OCR-Auftrags beeinflusst, ist beispielsweise die Qualität des Eingabebildes. Je geringer das Hintergrundrauschen und je höher die Bildauflösung (200 dpi ist ein guter Wert), desto schneller ist die Verarbeitung und desto genauer sind die OCR-Ergebnisse. Mit der Leistungsoptimierungsfunktion von IronOCR lassen sich jedoch auch Aufgaben mit Bildern geringer Qualität zügig erledigen.

Darüber hinaus kann die Auswahl von Eingabebildern oder gescannten Textformaten mit weniger digitalem Rauschen, wie z. B. PNG oder TIFF, zu schnelleren Ergebnissen führen als Bildformate mit geringerer Qualität wie JPEG.

Die Installation der IronOCR-Lösung ist ein Kinderspiel

Die Iron Software-Suite ist sehr einfach zu installieren und auszuführen. Sie ist für die gängigsten Entwicklungsplattformen verfügbar. Unsere Lösung bietet plattformübergreifende Unterstützung, darunter Windows, Linux, macOS, Azure, AWS und Docker – nicht umsonst ist C# die unter Entwicklern am meisten bevorzugte Tesseract-OCR-Engine.

Unterstützung für über 125 internationale Sprachen

Bei OCR-Aufträgen ist eine bestimmte Software besonders nützlich, wenn sie mehrere Sprachen unterstützt. Die IronOCR-Lösung macht sich unentbehrlich, da sie 125 internationale Sprachen unterstützt. Diese Sprachen können über Sprachpakete installiert werden, die als DLL-Dateien bereitgestellt werden. Sie können von dieser Website oder über den NuGet Package Manager für Visual Studio heruntergeladen werden.

So installieren Sie OCR-Sprachpakete

Es werden 120 Sprachen unterstützt. Sie können zusätzliche OCR-Sprachpakete auf zwei Arten herunterladen:

Installieren Sie das NuGet-Paket

Suchen Sie in NuGet nach IronOCR Sprachen.

Verwendung der OCR-Datenmethode

Laden Sie die Datei ocrdata herunter und fügen Sie sie Ihrem .NET-Projekt oder Ihren Programmdateien hinzu.

Erstellen Sie ganz einfach durchsuchbare Dokumente aus Ihren gescannten Dateien oder Bildern

Eine Funktion, auf die wir sehr stolz sind, ist die Fähigkeit unserer Tesseract-Software, aus Eingabebildern oder einer gescannten PDF-Datei ein durchsuchbares PDF-Dokument oder durchsuchbaren Text zu erstellen. Sie können Ihr OCR-Ergebnis als PDF exportieren, das in C# und VB.NET als durchsuchbares PDF-Dokument dient. Dies kann Unternehmen und Behörden bei der Datenbankbefüllung, der Suchmaschinenoptimierung (SEO) und der Arbeit mit PDF-Dateien sehr helfen.

Nutzen Sie die Leistungsfähigkeit des besten OCR-Tools

IronOCR ist das branchenweit führende Tool zum Extrahieren von Text aus Bildern und Dokumenten. Sie bietet eine Reihe von Features, Funktionen und Lösungen, die Ihnen eine mühelose und reibungslose Erfahrung bei der Erledigung von OCR-Aufgaben ermöglichen.

Unsere OCR-Tesseract-C#-Bibliotheken können Ihnen dabei helfen, Text aus Bildern und gescannten Dokumenten in Entwicklungsumgebungen wie C#- und .NET-Anwendungen zu extrahieren.

Mit IronOCR können Sie sogar passwortgeschützte PDF-Dokumente mühelos öffnen und Text problemlos extrahieren.

Sie weist zudem folgende Merkmale auf:

Erfordert keine ausführbaren Dateien oder C#-Code
Vollständige PDF-OCR-Unterstützung
Kompatibel mit MVC-, Web-App-, Desktop-, Konsolen- und Serveranwendungen
Vollständige Unterstützung for .NET Core, .NET Standard und Framework
Lesen Sie C# & VB .NET
Liest QR-Codes und BarCodes
Exportiert OCR in XHTML oder ein durchsuchbares PDF-Dokument
Unterstützt Multithreading
Extrahiert Bilder, Koordinaten, Statistiken, Schriftarten und vieles mehr

Wagen Sie den mutigen Schritt in Richtung IronOCR

Angesichts der Funktionen dieser unglaublichen OCR-Lösung können Sie nichts falsch machen, wenn Sie sich entscheiden, IronOCR auszuprobieren.

Die Nutzung unserer Software ist nur wenige Klicks entfernt. Beginnen Sie mit der Installation von IronOCR – eine unglaublich einfache Aufgabe. Darüber hinaus gibt es unglaublich hilfreiche und detaillierte Schritt-für-Schritt-Anleitungen zur Verwendung unserer Tools sowie How-Tos, ganz zu schweigen von unserem kompetenten Support-Center, das Anfragen so schnell wie möglich (fast sofort) beantwortet.

Zögern Sie nicht – entscheiden Sie sich noch heute für IronOCR. Dies ist der erste und wichtigste Schritt, um zu lernen, wie man PDF-Dateien in C# liest.

Sollten Sie noch Zweifel haben, ist unsere kostenlose Testlizenz genau das Richtige für Sie. So können Sie das volle Potenzial der neuesten Version von IronOCR ohne finanzielle Verpflichtungen erkunden. Sie kann Ihnen dabei helfen, zu entscheiden, welche Softwarelizenz die richtige für Sie ist. Wenn Sie sich nicht sicher sind, zögern Sie bitte nicht, unser Expertenteam zu kontaktieren, unabhängig von Ihrem Standort.

Erfahren Sie, wie Sie mit IronOCR durchsuchbare PDF-Dateien erstellen

Bereit anzufangen?

Nuget Downloads 5,896,332 | Version: 2026.5 just released

Lizenzen anzeigen

Scrollst du immer noch?

Sie brauchen schnell einen Beweis? PM > Install-Package IronOcr
Führen Sie ein Beispiel aus und beobachten Sie, wie Ihr Bild zu durchsuchbarem Text wird.