Zum Fußzeileninhalt springen
VERWENDUNG VON IRONOCR
Die Kraft durchsuchbarer PDFs mit IronOCR freisetzen

Die Kraft durchsuchbarer PDFs mit IronOCR freischalten: Webinar-Zusammenfassung

Im Webinar "Optimierung der Dokumentenkonvertierung mit IronOCR" untersuchten Chipego Kalinda (Software Sales Engineer) und Darren Steddy (Sales Operations Manager) drei praktische Anwendungsfälle für IronOCR mit Live-Code und Beispielen aus der Praxis und demonstrierten, wie effektiv und einfach es ist, gescannte PDFs in durchsuchbare, konforme Dokumente zu konvertieren.

IronOCR ermöglicht es Unternehmen, gescannte PDFs mit nur wenigen Codezeilen in durchsuchbare, konforme Dokumente umzuwandeln, die Datenextraktion zu automatisieren und Barrierefreiheitsstandards wie PDF/UA für die Einhaltung gesetzlicher Bestimmungen und die betriebliche Effizienz zu erfüllen.

Wie kann ich PDFs PDF/UA-konform gestalten?

Warum sind PDF/UA-Standards für mein Unternehmen wichtig?

Viele Organisationen müssen Zugänglichkeits- und Compliance-Standards wie PDF/UA erfüllen – sei es für interne Richtlinien, Vorgaben des öffentlichen Sektors oder die Langzeitarchivierung. Der PDF/UA-Standard (Universal Accessibility) gewährleistet, dass PDFs für Benutzer mit Behinderungen, insbesondere für diejenigen, die Hilfstechnologien wie Bildschirmleseprogramme verwenden, vollständig zugänglich sind. Hierbei geht es nicht nur um die Einhaltung von Vorschriften, sondern auch darum, allen Nutzern gleichen Zugang zu Informationen zu gewährleisten und gleichzeitig potenzielle rechtliche Probleme im Zusammenhang mit Verstößen gegen die Zugänglichkeitsbestimmungen zu vermeiden.

Was macht den IronOCR-Ansatz so einfach?

Chipego demonstrierte, wie IronOCR ein normales, nicht konformes PDF in nur wenigen Codezeilen in ein vollständig PDF/UA-konformes Dokument umwandelt.

using IronOcr;
using IronPdf;

// Initialize IronOCR
var ocr = new IronTesseract();

// Configure OCR for accessibility compliance
ocr.Configuration.ReadBarCodes = true;
ocr.Configuration.RenderSearchablePdf = true;

// Read the scanned PDF
using var input = new OcrInput();
input.AddPdf("scanned-document.pdf");

// Perform OCR and create searchable PDF/UA compliant document
var result = ocr.Read(input);
result.SaveAsSearchablePdf("compliant-output.pdf");
using IronOcr;
using IronPdf;

// Initialize IronOCR
var ocr = new IronTesseract();

// Configure OCR for accessibility compliance
ocr.Configuration.ReadBarCodes = true;
ocr.Configuration.RenderSearchablePdf = true;

// Read the scanned PDF
using var input = new OcrInput();
input.AddPdf("scanned-document.pdf");

// Perform OCR and create searchable PDF/UA compliant document
var result = ocr.Read(input);
result.SaveAsSearchablePdf("compliant-output.pdf");
$vbLabelText   $csharpLabel

Das Ergebnis wurde mit VeraPDF, einem Validierungstool für Zugänglichkeits- und Archivierungsstandards, überprüft. Dieser Validierungsschritt ist für Organisationen, die die Einhaltung von Vorschriften im Rahmen von Audits oder regulatorischen Anforderungen nachweisen müssen, von entscheidender Bedeutung.

Wer profitiert am meisten von der PDF/UA-Konformität?

Die Einhaltung der PDF/UA-Richtlinien gewährleistet, dass sehbehinderte Nutzer mithilfe von Bildschirmleseprogrammen auf Ihre Dokumente zugreifen können und unterstützt somit sowohl die Einhaltung gesetzlicher Bestimmungen als auch ein inklusives Design. Regierungsbehörden, Bildungseinrichtungen und Organisationen des Gesundheitswesens profitieren besonders, da sie oft strenge Anforderungen an die Barrierefreiheit stellen müssen. Darüber hinaus müssen Unternehmen, die in der EU Geschäfte tätigen, den European Accessibility Act einhalten, weshalb die Einhaltung von PDF/UA für den Marktzugang unerlässlich ist.

Demonstration der Erstellung durchsuchbarer PDFs mit IronOCR – Vorher-Nachher-Vergleich des Dokuments

Wie kann ich gescannte PDFs durchsuchbar machen?

Welches Problem wird damit gelöst?

Hatten Sie schon einmal ein gescanntes Dokument, das wie eine PDF aussieht, sich aber wie ein Bild verhält? Hier kommt die OCR-Technologie ins Spiel. Viele Unternehmen haben mit veralteten Dokumentenarchiven zu kämpfen, die Tausende von gescannten PDFs enthalten – diese Dateien belegen Speicherplatz, bieten aber keine Such- oder Datenextraktionsmöglichkeiten. Ohne OCR verschwenden Mitarbeiter unzählige Stunden mit der manuellen Suche in Dokumenten, was zu geringerer Produktivität und höheren Betriebskosten führt.

Wie funktioniert der Konvertierungsprozess?

Chipego demonstrierte, wie IronOCR ein nicht durchsuchbares gescanntes PDF in ein durchsuchbares PDF verwandelt und so sofort Volltextsuchfunktionen ermöglicht. Der Prozess umfasst mehrere komplexe Schritte:

using IronOcr;

// Create a new OCR engine instance
var ocr = new IronTesseract();

// Configure language and accuracy settings
ocr.Language = OcrLanguage.English;
ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;

// Load the scanned PDF
using var input = new OcrInput();
input.AddPdf("invoice-scan.pdf");

// Apply image improve for better accuracy
input.DeNoise();
input.Deskew();
input.EnhanceResolution(225);

// Perform OCR and save as searchable PDF
var result = ocr.Read(input);
result.SaveAsSearchablePdf("searchable-invoice.pdf");

// Extract text for indexing
string extractedText = result.Text;
Console.WriteLine($"Extracted {extractedText.Length} characters");
using IronOcr;

// Create a new OCR engine instance
var ocr = new IronTesseract();

// Configure language and accuracy settings
ocr.Language = OcrLanguage.English;
ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;

// Load the scanned PDF
using var input = new OcrInput();
input.AddPdf("invoice-scan.pdf");

// Apply image improve for better accuracy
input.DeNoise();
input.Deskew();
input.EnhanceResolution(225);

// Perform OCR and save as searchable PDF
var result = ocr.Read(input);
result.SaveAsSearchablePdf("searchable-invoice.pdf");

// Extract text for indexing
string extractedText = result.Text;
Console.WriteLine($"Extracted {extractedText.Length} characters");
$vbLabelText   $csharpLabel

Nach der Konvertierung können Benutzer bestimmte Inhalte mit Strg+F finden oder nach Schlüsselwörtern wie Datum, Name oder Dokumentthema suchen. Die OCR-Engine bewahrt intelligent das ursprüngliche Dokumentlayout und fügt gleichzeitig eine unsichtbare Textebene hinzu, die den Inhalt durchsuchbar und auswählbar macht.

Welche Branchen profitieren am meisten von durchsuchbaren PDFs?

Perfekt geeignet für:

  • Anwaltskanzleien, die Fallakten und Verträge bearbeiten
  • Gesundheitsdienstleister, die Patientenakten verwalten
  • Teams, die Papierakten digitalisieren und eine schnelle Inhaltssuche benötigen
  • Finanzinstitute für Rechnungsverarbeitung und Compliance
  • Immobilienunternehmen digitalisieren Immobiliendokumente

Die Fähigkeit, in großen Dokumentenarchiven schnell bestimmte Informationen zu finden, kann die Suchzeit nach Branchenschätzungen um bis zu 90 % reduzieren.

IronOCR-Benutzeroberfläche mit Textextraktions- und Suchfunktionen in konvertierten PDFs

Wie kann ich bestimmte Daten aus PDFs extrahieren?

Wann sollte ich die gezielte Extraktion anwenden?

Für Unternehmen, die große Mengen strukturierter Dokumente wie Quittungen, Bestellungen oder Rechnungen verarbeiten, demonstrierte Chipego, wie IronOCR Daten aus bestimmten PDF-Bereichen mithilfe von Begrenzungsrahmenkoordinaten extrahiert . Dieser gezielte Ansatz ist besonders wertvoll bei standardisierten Formularen, bei denen wichtige Informationen an immer gleichen Stellen erscheinen – wie zum Beispiel Gesamtbeträge auf Rechnungen, Daten auf Verträgen oder Kundennummern auf Bestellformularen.

Wie verbessert die regionale Datenverarbeitung die Leistung?

Anstatt die gesamte Datei zu verarbeiten, konzentriert sich IronOCR nur auf relevante Felder wie Bestellnummern, Summen oder Adressen, was die Geschwindigkeit drastisch erhöht und die Cloud- oder Rechenkosten reduziert. So implementieren Sie die gezielte Datenextraktion:

using IronOcr;
using System.Drawing;

var ocr = new IronTesseract();

// Load PDF and define extraction regions
using var input = new OcrInput();
input.AddPdf("purchase-order.pdf", 1); // Process first page only

// Define bounding box for PO number field (x, y, width, height)
var poNumberArea = new Rectangle(450, 100, 150, 50);
input.AddPdfPage("purchase-order.pdf", 1, poNumberArea);

// Extract just the PO number
var result = ocr.Read(input);
string poNumber = result.Text.Trim();

// Define multiple regions for batch extraction
var regions = new Dictionary<string, Rectangle>
{
    { "PONumber", new Rectangle(450, 100, 150, 50) },
    { "TotalAmount", new Rectangle(450, 600, 150, 50) },
    { "VendorName", new Rectangle(50, 200, 300, 50) }
};

// Extract data from each region
var extractedData = new Dictionary<string, string>();
foreach (var region in regions)
{
    input.Clear();
    input.AddPdfPage("purchase-order.pdf", 1, region.Value);
    var regionResult = ocr.Read(input);
    extractedData[region.Key] = regionResult.Text.Trim();
}
using IronOcr;
using System.Drawing;

var ocr = new IronTesseract();

// Load PDF and define extraction regions
using var input = new OcrInput();
input.AddPdf("purchase-order.pdf", 1); // Process first page only

// Define bounding box for PO number field (x, y, width, height)
var poNumberArea = new Rectangle(450, 100, 150, 50);
input.AddPdfPage("purchase-order.pdf", 1, poNumberArea);

// Extract just the PO number
var result = ocr.Read(input);
string poNumber = result.Text.Trim();

// Define multiple regions for batch extraction
var regions = new Dictionary<string, Rectangle>
{
    { "PONumber", new Rectangle(450, 100, 150, 50) },
    { "TotalAmount", new Rectangle(450, 600, 150, 50) },
    { "VendorName", new Rectangle(50, 200, 300, 50) }
};

// Extract data from each region
var extractedData = new Dictionary<string, string>();
foreach (var region in regions)
{
    input.Clear();
    input.AddPdfPage("purchase-order.pdf", 1, region.Value);
    var regionResult = ocr.Read(input);
    extractedData[region.Key] = regionResult.Text.Trim();
}
$vbLabelText   $csharpLabel

Mit diesem gezielten Ansatz lässt sich die Bearbeitungszeit im Vergleich zur OCR-Vollseitenerkennung um 70-80 % reduzieren, wodurch er sich ideal für Szenarien mit hohem Dokumentenaufkommen eignet.

Welche geschäftlichen Vorteile ergeben sich?

Dadurch werden wiederkehrende Dateneingabeaufgaben automatisiert, der manuelle Aufwand reduziert, die Genauigkeit verbessert und die Teams für wertschöpfendere Aufgaben freigestellt. Unternehmen berichten von einer Einsparung von 20 bis 30 Stunden pro Woche allein bei der Dateneingabe. Die extrahierten Daten können automatisch in Datenbanken exportiert, in bestehende Systeme integriert oder automatisierte Arbeitsabläufe ausgelöst werden. Beispielsweise können extrahierte Rechnungssummen Buchhaltungssysteme automatisch aktualisieren, während extrahierte Kundeninformationen CRM-Datensätze ohne manuelles Eingreifen befüllen können.

Wie bewältigt IronOCR die Automatisierung im großen Maßstab?

Kann IronOCR mehrere Dateien gleichzeitig verarbeiten?

Während das Webinar einzelne Code-Beispiele vorstellte, ist IronOCR für die Stapelverarbeitung im großen Maßstab konzipiert. Egal ob Sie Hunderte oder Millionen von Dateien konvertieren, IronOCR lässt sich problemlos in Ihre bestehenden Systeme integrieren. Die Unternehmenslösung unterstützt Multithreading und verteilte Verarbeitung und ermöglicht es Organisationen, Tausende von Dokumenten pro Stunde zu verarbeiten. Hier ein Beispiel für die Stapelverarbeitung:

using IronOcr;
using System.IO;
using System.Threading.Tasks;

public async Task ProcessDocumentBatch(string folderPath)
{
    var ocr = new IronTesseract();
    ocr.Configuration.RenderSearchablePdf = true;

    // Get all PDF files in directory
    var pdfFiles = Directory.GetFiles(folderPath, "*.pdf");

    // Process files in parallel for maximum efficiency
    await Parallel.ForEachAsync(pdfFiles, async (file, ct) =>
    {
        using var input = new OcrInput();
        input.AddPdf(file);

        var result = await Task.Run(() => ocr.Read(input));

        // Save searchable version
        var outputPath = Path.Combine(folderPath, "searchable", Path.GetFileName(file));
        result.SaveAsSearchablePdf(outputPath);

        // Log processing results
        Console.WriteLine($"Processed: {file} - {result.Pages.Length} pages");
    });
}
using IronOcr;
using System.IO;
using System.Threading.Tasks;

public async Task ProcessDocumentBatch(string folderPath)
{
    var ocr = new IronTesseract();
    ocr.Configuration.RenderSearchablePdf = true;

    // Get all PDF files in directory
    var pdfFiles = Directory.GetFiles(folderPath, "*.pdf");

    // Process files in parallel for maximum efficiency
    await Parallel.ForEachAsync(pdfFiles, async (file, ct) =>
    {
        using var input = new OcrInput();
        input.AddPdf(file);

        var result = await Task.Run(() => ocr.Read(input));

        // Save searchable version
        var outputPath = Path.Combine(folderPath, "searchable", Path.GetFileName(file));
        result.SaveAsSearchablePdf(outputPath);

        // Log processing results
        Console.WriteLine($"Processed: {file} - {result.Pages.Length} pages");
    });
}
$vbLabelText   $csharpLabel

Welche Unterstützungsoptionen stehen zur Verfügung?

Benötigen Sie Hilfe? Iron Software bietet Ihnen technischen Support rund um die Uhr an 5 Tagen die Woche per Chat und E-Mail, damit Sie schnell wieder einsatzbereit sind. Zu ihrem Support-Team gehören OCR-Spezialisten, die Ihnen bei der Optimierung Ihres spezifischen Anwendungsfalls helfen können, egal ob es sich um anspruchsvolle Dokumenttypen, mehrere Sprachen oder komplexe Integrationsanforderungen handelt. Zudem helfen vollständige Dokumentation und Codebeispiele den Entwicklern, Lösungen selbstständig zu implementieren.

Sind Sie bereit, Ihre PDFs durchsuchbar, konform und automatisierungsfähig zu machen?

IronOCR wandelt die Dokumentenverarbeitung von einem manuellen Engpass in einen automatisierten Arbeitsablauf um. Mit Unterstützung für über 125 Sprachen, fortschrittlicher Bildvorverarbeitung und reibungsloser PDF-Verarbeitung ist es die Komplettlösung für modernes Dokumentenmanagement. Ob Sie die Einhaltung von Vorschriften sicherstellen, die Suche ermöglichen oder kritische Daten extrahieren möchten – IronOCR bietet professionelle OCR-Funktionen mit entwicklerfreundlicher Implementierung.

Sehen Sie sich die vollständige Dokumentation von IronOCR an und legen Sie noch heute los:

Testen Sie die 30-Tage-Testversion

Häufig gestellte Fragen

Wie kann ich ein gescanntes PDF in ein durchsuchbares Dokument umwandeln?

Sie können IronOCR verwenden, um ein nicht durchsuchbares gescanntes PDF in ein vollständig durchsuchbares Dokument zu konvertieren. Durch die Anwendung von OCR-Technologie ermöglicht es Funktionen für die Volltextsuche, sodass Sie spezifische Inhalte mit Schlüsselwörtern oder Phrasen finden können.

Was sind die Vorteile der Konformität von PDFs mit den PDF/UA-Standards?

Die Konformität von PDFs mit den PDF/UA-Standards stellt die Zugänglichkeit für sehbehinderte Benutzer durch Bildschirmlesegeräte sicher. IronOCR kann nicht konforme PDFs in PDF/UA-konforme Dokumente mit nur wenigen Codezeilen umwandeln, verifiziert durch Tools wie VeraPDF.

Wie unterstützt IronOCR bei der gezielten Datenextraktion aus PDFs?

IronOCR kann Daten aus spezifischen Bereichen eines PDFs mittels Begrenzungsrahmenkoordinaten extrahieren. Diese Funktion ist besonders nützlich für strukturierte Dokumente wie Rechnungen oder Quittungen, da sie es Ihnen ermöglicht, sich auf relevante Felder zu konzentrieren und die Verarbeitungseffizienz zu verbessern.

Welche Rolle spielt IronOCR bei der Automatisierung von Dokumentenverarbeitungsaufgaben?

IronOCR ist für die Stapelverarbeitung im großen Maßstab konzipiert und eignet sich ideal zur Automatisierung von Dokumentenkonvertierungsaufgaben. Es kann große Mengen von Dateien effizient handhaben und nahtlos in bestehende Systeme integriert werden, um Arbeitsabläufe zu optimieren.

Wer profitiert von der Umwandlung gescannter PDFs in durchsuchbare Formate?

Organisationen wie Anwaltskanzleien und Gesundheitsdienstleister profitieren von der Umwandlung gescannter PDFs in durchsuchbare Formate. Dies ermöglicht schnelle, inhaltsbasierte Suchen in umfangreichen Archiven und vereinfacht die Informationsbeschaffung.

Welche Unterstützungsoptionen gibt es für Benutzer, die IronOCR implementieren?

Iron Software bietet 24/5 technischen Support über Chat und E-Mail, um Benutzer bei der Implementierung von IronOCR zu unterstützen. Dieser Support stellt sicher, dass Benutzer ihre Dokumentenkonvertierungsprojekte effektiv verwalten und technische Probleme lösen können.

Wie kann ich sicherstellen, dass mein Dokumentenkonvertierungsprojekt erfolgreich ist?

Um den Erfolg zu gewährleisten, nutzen Sie IronOCR für seine robusten Funktionen und nehmen Sie die technische Unterstützung von Iron Software in Anspruch. Greifen Sie auf die vollständige Dokumentation auf deren offizieller Website zu und ziehen Sie deren 30-tägige Testversion in Betracht, um die Möglichkeiten zu erkunden.

Kannaopat Udonpant
Software Ingenieur
Bevor er Software-Ingenieur wurde, absolvierte Kannapat ein PhD in Umweltressourcen an der Hokkaido University in Japan. Während seines Studiums wurde Kannapat auch Mitglied des Vehicle Robotics Laboratory, das Teil der Fakultät für Bioproduktionstechnik ist. Im Jahr 2022 nutzte er seine C#-Kenntnisse, um dem Engineering-Team von Iron Software ...
Weiterlesen