IRONOCR VERWENDEN

OCR mit Computer Vision (Beispiel-Tutorial)

Optische Zeichenerkennung (OCR) ist eine Technologie, die es Maschinen ermöglicht, Text aus Bildern zu lesen und zu interpretieren, wodurch die Datenverarbeitung und Automatisierung schneller und effizienter wird. Dieser Artikel enthält Richtlinien zur Verwendung der OCR-Computer-Vision mit der IronOCR-Bibliothek und zeigt, wie sie die Texterkennung verbessern und diesen Prozess automatisieren kann.

Warum ist OCR wichtig?

OCR zusammen mit Computer Vision ist eine fortschrittliche Form der optischen Zeichenerkennung (OCR), die die Leistungsfähigkeit von künstlicher Intelligenz und maschinellen Lernalgorithmen nutzt, um Textzeichen aus Bildern genauer und effizienter zu erkennen.

Bildverarbeitungsalgorithmen ermöglichen es OCR-Systemen, den Kontext und das Layout von Text in einem Bild zu verstehen und Zeichen anhand ihrer Form und Struktur zu erkennen. OCR in Verbindung mit Computer Vision kann Text aus komplexen Bildern mit verschiedenen Schriftarten, Stilen und Größen extrahieren und ist damit ein wertvolles Werkzeug für die Digitalisierung von Dokumenten, die Datenextraktion und die Automatisierung.

IronOCR: C# OCR-Bibliothek

IronOCR ist eine beliebte OCR-Bibliothek, die Computer-Vision-Techniken zur Textextraktion aus Bildern und Dokumenten verwendet. Es ist einfach zu bedienen und lässt sich in mehrere Programmiersprachen integrieren, darunter C# und VB.NET. IronOCR ist sowohl als On-Premise- als auch als Cloud-Version erhältlich und bietet eine Reihe von Funktionalitäten zur Verarbeitung und Extraktion von Text aus Bildern.

Installation von IronOCR

Um IronOCR zu installieren, verwenden Sie den folgenden Befehl in der NuGet Package Manager Console:

:ProductInstall

OCR-System mit IronOCR

Das folgende Bild wird verwendet, um das OCR-System mit Computer Vision unter Verwendung von IronOCR zu testen.

OCR mit Computer Vision (Beispieltutorial), Abbildung 1: Bildbeispiel, das für OCR-Erkennung verwendet wird

Beispielbild für die OCR-Erkennung

FindTextRegion

Die FindTextRegion-Methode wird verwendet, um einen einzelnen Textbereich innerhalb eines Bildes zu identifizieren. Die Methode nimmt mehrere optionale Parameter entgegen, darunter Scale, DilationAmount, Binarize und Invert. Skalierung passt die Größe des Bildes an, DilationAmount erhöht die Dicke des Textes, Binarisieren wandelt das Bild in Schwarz-Weiß um, und Invert kehrt die Farben des Bildes um.

using IronOcr;
using System;

var ocr = new IronTesseract();
using (var inputOCR = new OcrInput("test.jpg")) 
{
    inputOCR.FindTextRegion();
    OcrResult result = ocr.Read(input);
    string resultText = result.Text;
    Console.WriteLine(resultText);
}
using IronOcr;
using System;

var ocr = new IronTesseract();
using (var inputOCR = new OcrInput("test.jpg")) 
{
    inputOCR.FindTextRegion();
    OcrResult result = ocr.Read(input);
    string resultText = result.Text;
    Console.WriteLine(resultText);
}
Imports IronOcr
Imports System

Private ocr = New IronTesseract()
Using inputOCR = New OcrInput("test.jpg")
	inputOCR.FindTextRegion()
	Dim result As OcrResult = ocr.Read(input)
	Dim resultText As String = result.Text
	Console.WriteLine(resultText)
End Using
$vbLabelText   $csharpLabel

Nachdem Sie den Code ausgeführt haben, werden Sie sehen, dass der Text mithilfe eines maschinellen Lernprozesses aus dem Textbereich extrahiert wird. Das Ausgabeergebnis erscheint in der Konsole mit fast 100 % Texterkennungsgenauigkeit.

OCR mit Computer Vision (Beispiel-Tutorial), Abbildung 2: Die Konsolenergebnisse des Textextraktionsprozesses

Die Konsolenergebnisse des Textextraktionsprozesses

FindMultipleTextRegions-Methode

Die FindMultipleTextRegions-Methode ist ähnlich der FindTextRegion-Methode, wird jedoch verwendet, wenn es mehrere Texthighlights in einem Bild gibt. Es gibt eine Liste von CropRectangle-Objekten zurück, die den Ort jeder Textregion definieren. Diese Methode ist nützlich, wenn Sie Text aus einem Bild extrahieren möchten, das mehrere Textabschnitte enthält.

using IronOcr;

var ocr = new IronTesseract();
using (var input = new OcrInput("test.jpg"))
{
    input.FindMultipleTextRegions(Scale: 2.0, DilationAmount: -1, Binarize: true, Invert: false);
    OcrResult result = ocr.Read(input);
    string resultText = result.Text;
    Console.WriteLine(resultText);
}
using IronOcr;

var ocr = new IronTesseract();
using (var input = new OcrInput("test.jpg"))
{
    input.FindMultipleTextRegions(Scale: 2.0, DilationAmount: -1, Binarize: true, Invert: false);
    OcrResult result = ocr.Read(input);
    string resultText = result.Text;
    Console.WriteLine(resultText);
}
Imports IronOcr

Private ocr = New IronTesseract()
Using input = New OcrInput("test.jpg")
	input.FindMultipleTextRegions(Scale:= 2.0, DilationAmount:= -1, Binarize:= True, Invert:= False)
	Dim result As OcrResult = ocr.Read(input)
	Dim resultText As String = result.Text
	Console.WriteLine(resultText)
End Using
$vbLabelText   $csharpLabel

Der obige Codeausschnitt ist ein Beispiel dafür, wie man die IronOCR-Bibliothek verwendet, um OCR auf einer Bilddatei auszuführen. Zuerst wird die IronOCR-Bibliothek importiert und eine neue Instanz der IronTesseract-Klasse erstellt. Dann initialisiert es ein OcrInput-Objekt mit dem Pfad der Eingabebilddatei und wendet einige Vorverarbeitungstechniken zur Bildkorrektur mit der FindMultipleTextRegions-Methode an.

Danach ruft es die Read-Methode des IronTesseract-Objekts auf, die das OCR auf dem vorverarbeiteten Bild durchführt und ein OcrResult-Objekt zurückgibt. Der aus dem OcrResult-Objekt extrahierte Text wird dann in einer Zeichenfolgenvariablen gespeichert und in der Konsole ausgegeben.

Die Ausgabe von IronOCR

Die Ausgabe von IronOCR ist sehr genau, selbst bei komplexen Bildern mit verschiedenen Schriftarten, Größen und Textstilen.

Die OCR-Genauigkeit ist bei der Extraktion von Daten aus Bildern von entscheidender Bedeutung, da der extrahierte Text häufig für die weitere Verarbeitung verwendet wird, beispielsweise für die Datenanalyse, die manuelle Dateneingabe, das maschinelle Lernen oder die Verarbeitung natürlicher Sprache. Wenn der extrahierte Text Fehler enthält, kann dies zu Problemen im weiteren Verlauf führen. Darüber hinaus ermöglicht IronOCR die Untersuchung von Ergebnisobjekten, um Vertrauensniveaus zu überprüfen.

Anwendungsfälle von OCR Computer Vision

Die Technologie der optischen Zeichenerkennung (OCR) hat die Art und Weise, wie gedruckter Text verarbeitet wird, revolutioniert. OCR-Tools sind ein unverzichtbarer Bestandteil der Dokumentenverarbeitung und Datenextraktion geworden. Hier sind einige Anwendungsfälle für Software zur optischen Zeichenerkennung:

OCR-Nummernschild-Erkennung

Kennzeichenerkennung spielt eine bedeutende Rolle bei der Automatisierung des Verkehrsmanagements, von Parksystemen und bei Aktivitäten zur Strafverfolgung. Durch die Implementierung von OCR-Computer-Vision in C# können Entwickler Anwendungen erstellen, die schnell und genau Nummernschilder aus Bildern oder Live-Videobildern identifizieren. Diese Technologie kann verwendet werden, um:

  • Überwachung von Verkehrsverstößen und Ermittlung von Fahrzeugen, die in kriminelle Aktivitäten verwickelt sind.
  • Automatisierung der Parksysteme, Erleichterung der Ein- und Ausfahrtverwaltung und Rationalisierung des Abrechnungsprozesses.
  • Verstärkung der Sicherheitsmaßnahmen durch Verfolgung und Überwachung der Fahrzeugbewegungen in Sperrgebieten.

Text aus Rechnungen extrahieren

OCR-Computer Vision in C# kann verwendet werden, um OCR-Anwendungen zu entwickeln, die die Extraktion von Text aus Rechnungen und anderen Finanzdokumenten automatisieren. Dieser Prozess kann Fehler bei der manuellen Dateneingabe drastisch reduzieren und die Buchhaltungsaufgaben rationalisieren. Die wichtigsten Vorteile sind:

  • Höhere Produktivität durch Automatisierung der Dateneingabe.
  • Verbesserte Genauigkeit, da OCR die Wahrscheinlichkeit menschlicher Fehler verringert.
  • Nahtlose Integration mit Buchhaltungssoftware und -systemen für eine effiziente Datenverwaltung.

OCR-Untertitelgenerierung

Das Erstellen von Untertiteln für Videos kann zeitaufwendig und arbeitsintensiv sein. Die OCR-Computervision in C# kann diesen Prozess vereinfachen, indem sie den Bildschirmtext automatisch erkennt und transkribiert, wodurch Entwicklern ermöglicht wird:

  • Erstellen Sie präzise Untertitel für Filme, Fernsehsendungen und Online-Videos.
  • Verbessern Sie die Zugänglichkeit für Menschen mit Hörbehinderungen oder für Menschen, die verschiedene Sprachen sprechen.
  • Verstärkung der SEO-Bemühungen durch Bereitstellung durchsuchbarer, indizierbarer Inhalte für die Videoplattform

OCR-PDF-Verarbeitung

PDF-Dateien werden häufig für die gemeinsame Nutzung und Speicherung von Dokumenten verwendet, aber das Extrahieren von Text aus diesen Dateien kann schwierig sein. OCR-Computervision in C# kann Entwicklern helfen, OCR-Anwendungen zu erstellen, die mühelos PDF-Dateien verarbeiten und deren Inhalte extrahieren, was Folgendes erleichtert:

Digitalisieren von gedrucktem Text

OCR-Software wird häufig verwendet, um gedruckten Text aus Dokumentenbildern zu digitalisieren. OCR-Tools können Text aus gescannten digitalen Dokumenten, PDFs und Bildern in verschiedenen Formaten extrahieren. Dies ist besonders nützlich für die Dokumentenverwaltung, wo Sie textbasierte Dokumente einfach suchen, speichern und gemeinsam nutzen können.

Datenextraktion

Die OCR-Technologie wird häufig eingesetzt, um Daten aus Eingangsdaten wie Rechnungen, Quittungen und Formularen zu extrahieren. OCR-Modelle können wichtige Datenfelder wie Namen, Adressen, Daten und Beträge erkennen und extrahieren. Dadurch entfällt die Notwendigkeit der manuellen Dateneingabe und die Fehlerquote bei der Datenverarbeitung wird reduziert.

Bildsuche

Die OCR-Technologie wird auch für die Bildsuche verwendet, bei der Sie anhand des darin enthaltenen Textes nach Bildern suchen können. Dies ist besonders nützlich für große Bildbibliotheken, bei denen eine manuelle Suche sehr zeitaufwändig wäre.

Übersetzung

OCR-Software kann verwendet werden, um Text aus Dokumenten in einer Sprache zu extrahieren und ihn in eine andere Sprache zu übersetzen. Dies ist besonders nützlich für internationale Unternehmen, bei denen die Dokumente schnell und präzise übersetzt werden müssen.

Zusammenfassung

Optische Zeichenerkennung (OCR) ist eine Technologie, die es Computern ermöglicht, Text aus Bildern zu lesen. OCR in Verbindung mit Computer Vision ist wichtig, weil sie es Maschinen ermöglicht, die visuelle Welt zu verstehen und zu interpretieren, was für Anwendungen wie selbstfahrende Autos, Robotik und automatische Dokumentenverarbeitung unerlässlich ist.

IronOCR ist eine leistungsstarke OCR-Engine, mit der OCR mit Computer Vision angewendet werden kann, um Text genau zu erkennen und Text aus Bildern zu extrahieren. Es bietet eine Reihe von Methoden zum Finden und Extrahieren von Textbereichen, einschließlich FindTextRegion, FindMultipleTextRegions und GetTextRegions. Jede Methode verfügt über einen eigenen Satz von Parametern, die verwendet werden können, um den OCR-Prozess feinabzustimmen und eine hohe OCR-Genauigkeit zu gewährleisten.

Durch die Verwendung von IronOCR können Sie den gescannten Text aus Eingabebildern schnell und genau extrahieren, indem Sie Parallelität und angepasste Konfiguration nutzen, was Ihnen Zeit und Aufwand spart, wenn Sie mit großen Datenmengen von Eingabebildern arbeiten. Egal, ob Sie mit gescannten Dokumenten, Fotos oder Screenshots arbeiten, IronOCR kann Ihnen helfen, den darin enthaltenen Text zu entschlüsseln.

IronOCR bietet eine kostenlose Testversion für Benutzer, die die Software vor einer Kaufentscheidung testen möchten. Die Lizenz für IronOCR beginnt bei $749 und beinhaltet Support und Updates für ein Jahr. Mit seinen robusten Funktionen und dem günstigen Preis ist IronOCR eine gute Wahl für alle, die eine zuverlässige OCR-Lösung mit hoher OCR-Genauigkeit suchen.

Kannaopat Udonpant
Software-Ingenieur
Bevor er Software-Ingenieur wurde, promovierte Kannapat an der Universität Hokkaido in Japan im Bereich Umweltressourcen. Während seines Studiums wurde Kannapat auch Mitglied des Vehicle Robotics Laboratory, das Teil der Abteilung für Bioproduktionstechnik ist. Im Jahr 2022 wechselte er mit seinen C#-Kenntnissen zum Engineering-Team von Iron Software, wo er sich auf IronPDF konzentriert. Kannapat schätzt an seiner Arbeit, dass er direkt von dem Entwickler lernt, der den Großteil des in IronPDF verwendeten Codes schreibt. Neben dem kollegialen Lernen genießt Kannapat auch den sozialen Aspekt der Arbeit bei Iron Software. Wenn er nicht gerade Code oder Dokumentationen schreibt, kann man Kannapat normalerweise beim Spielen auf seiner PS5 oder beim Wiedersehen mit The Last of Us antreffen.
< PREVIOUS
OCR-Bon-Datenextraktion (Schritt-für-Schritt-Anleitung)
NÄCHSTES >
OCR von Führerscheinen in C#