Optische Zeichenerkennung (OCR) ist eine Technologie, die es Maschinen ermöglicht, Text aus Bildern zu lesen und zu interpretieren, wodurch die Datenverarbeitung und Automatisierung schneller und effizienter wird. Dieser Artikel enthält Richtlinien zur Verwendung der OCR-Computer-Vision mit der IronOCR-Bibliothek und zeigt, wie sie die Texterkennung verbessern und diesen Prozess automatisieren kann.
Warum ist OCR wichtig?
OCR zusammen mit Computer Vision ist eine fortschrittliche Form der optischen Zeichenerkennung (OCR), die die Leistungsfähigkeit von künstlicher Intelligenz und maschinellen Lernalgorithmen nutzt, um Textzeichen aus Bildern genauer und effizienter zu erkennen.
Bildverarbeitungsalgorithmen ermöglichen es OCR-Systemen, den Kontext und das Layout von Text in einem Bild zu verstehen und Zeichen anhand ihrer Form und Struktur zu erkennen. OCR in Verbindung mit Computer Vision kann Text aus komplexen Bildern mit verschiedenen Schriftarten, Stilen und Größen extrahieren und ist damit ein wertvolles Werkzeug für die Digitalisierung von Dokumenten, die Datenextraktion und die Automatisierung.
IronOCR: C# OCR-Bibliothek
IronOCR ist eine beliebte OCR-Bibliothek, die Computer-Vision-Techniken zur Textextraktion aus Bildern und Dokumenten verwendet. Es ist einfach zu bedienen und lässt sich in mehrere Programmiersprachen integrieren, darunter C# und VB.NET. IronOCR ist sowohl als On-Premise- als auch als Cloud-Version erhältlich und bietet eine Reihe von Funktionalitäten zur Verarbeitung und Extraktion von Text aus Bildern.
Installation von IronOCR
Um IronOCR zu installieren, verwenden Sie den folgenden Befehl in der NuGet Package Manager Console:
Die FindTextRegion-Methode wird verwendet, um einen einzelnen Textbereich innerhalb eines Bildes zu identifizieren. Die Methode nimmt mehrere optionale Parameter entgegen, darunter Scale, DilationAmount, Binarize und Invert. Skalierung passt die Größe des Bildes an, DilationAmount erhöht die Dicke des Textes, Binarisieren wandelt das Bild in Schwarz-Weiß um, und Invert kehrt die Farben des Bildes um.
using IronOcr;
using System;
var ocr = new IronTesseract();
using (var inputOCR = new OcrInput("test.jpg"))
{
inputOCR.FindTextRegion();
OcrResult result = ocr.Read(input);
string resultText = result.Text;
Console.WriteLine(resultText);
}
using IronOcr;
using System;
var ocr = new IronTesseract();
using (var inputOCR = new OcrInput("test.jpg"))
{
inputOCR.FindTextRegion();
OcrResult result = ocr.Read(input);
string resultText = result.Text;
Console.WriteLine(resultText);
}
Imports IronOcr
Imports System
Private ocr = New IronTesseract()
Using inputOCR = New OcrInput("test.jpg")
inputOCR.FindTextRegion()
Dim result As OcrResult = ocr.Read(input)
Dim resultText As String = result.Text
Console.WriteLine(resultText)
End Using
$vbLabelText $csharpLabel
Nachdem Sie den Code ausgeführt haben, werden Sie sehen, dass der Text mithilfe eines maschinellen Lernprozesses aus dem Textbereich extrahiert wird. Das Ausgabeergebnis erscheint in der Konsole mit fast 100 % Texterkennungsgenauigkeit.
Die Konsolenergebnisse des Textextraktionsprozesses
FindMultipleTextRegions-Methode
Die FindMultipleTextRegions-Methode ist ähnlich der FindTextRegion-Methode, wird jedoch verwendet, wenn es mehrere Texthighlights in einem Bild gibt. Es gibt eine Liste von CropRectangle-Objekten zurück, die den Ort jeder Textregion definieren. Diese Methode ist nützlich, wenn Sie Text aus einem Bild extrahieren möchten, das mehrere Textabschnitte enthält.
using IronOcr;
var ocr = new IronTesseract();
using (var input = new OcrInput("test.jpg"))
{
input.FindMultipleTextRegions(Scale: 2.0, DilationAmount: -1, Binarize: true, Invert: false);
OcrResult result = ocr.Read(input);
string resultText = result.Text;
Console.WriteLine(resultText);
}
using IronOcr;
var ocr = new IronTesseract();
using (var input = new OcrInput("test.jpg"))
{
input.FindMultipleTextRegions(Scale: 2.0, DilationAmount: -1, Binarize: true, Invert: false);
OcrResult result = ocr.Read(input);
string resultText = result.Text;
Console.WriteLine(resultText);
}
Imports IronOcr
Private ocr = New IronTesseract()
Using input = New OcrInput("test.jpg")
input.FindMultipleTextRegions(Scale:= 2.0, DilationAmount:= -1, Binarize:= True, Invert:= False)
Dim result As OcrResult = ocr.Read(input)
Dim resultText As String = result.Text
Console.WriteLine(resultText)
End Using
$vbLabelText $csharpLabel
Der obige Codeausschnitt ist ein Beispiel dafür, wie man die IronOCR-Bibliothek verwendet, um OCR auf einer Bilddatei auszuführen. Zuerst wird die IronOCR-Bibliothek importiert und eine neue Instanz der IronTesseract-Klasse erstellt. Dann initialisiert es ein OcrInput-Objekt mit dem Pfad der Eingabebilddatei und wendet einige Vorverarbeitungstechniken zur Bildkorrektur mit der FindMultipleTextRegions-Methode an.
Danach ruft es die Read-Methode des IronTesseract-Objekts auf, die das OCR auf dem vorverarbeiteten Bild durchführt und ein OcrResult-Objekt zurückgibt. Der aus dem OcrResult-Objekt extrahierte Text wird dann in einer Zeichenfolgenvariablen gespeichert und in der Konsole ausgegeben.
Die Ausgabe von IronOCR
Die Ausgabe von IronOCR ist sehr genau, selbst bei komplexen Bildern mit verschiedenen Schriftarten, Größen und Textstilen.
Die OCR-Genauigkeit ist bei der Extraktion von Daten aus Bildern von entscheidender Bedeutung, da der extrahierte Text häufig für die weitere Verarbeitung verwendet wird, beispielsweise für die Datenanalyse, die manuelle Dateneingabe, das maschinelle Lernen oder die Verarbeitung natürlicher Sprache. Wenn der extrahierte Text Fehler enthält, kann dies zu Problemen im weiteren Verlauf führen. Darüber hinaus ermöglicht IronOCR die Untersuchung von Ergebnisobjekten, um Vertrauensniveaus zu überprüfen.
Anwendungsfälle von OCR Computer Vision
Die Technologie der optischen Zeichenerkennung (OCR) hat die Art und Weise, wie gedruckter Text verarbeitet wird, revolutioniert. OCR-Tools sind ein unverzichtbarer Bestandteil der Dokumentenverarbeitung und Datenextraktion geworden. Hier sind einige Anwendungsfälle für Software zur optischen Zeichenerkennung:
OCR-Nummernschild-Erkennung
Kennzeichenerkennung spielt eine bedeutende Rolle bei der Automatisierung des Verkehrsmanagements, von Parksystemen und bei Aktivitäten zur Strafverfolgung. Durch die Implementierung von OCR-Computer-Vision in C# können Entwickler Anwendungen erstellen, die schnell und genau Nummernschilder aus Bildern oder Live-Videobildern identifizieren. Diese Technologie kann verwendet werden, um:
Überwachung von Verkehrsverstößen und Ermittlung von Fahrzeugen, die in kriminelle Aktivitäten verwickelt sind.
Automatisierung der Parksysteme, Erleichterung der Ein- und Ausfahrtverwaltung und Rationalisierung des Abrechnungsprozesses.
Verstärkung der Sicherheitsmaßnahmen durch Verfolgung und Überwachung der Fahrzeugbewegungen in Sperrgebieten.
Text aus Rechnungen extrahieren
OCR-Computer Vision in C# kann verwendet werden, um OCR-Anwendungen zu entwickeln, die die Extraktion von Text aus Rechnungen und anderen Finanzdokumenten automatisieren. Dieser Prozess kann Fehler bei der manuellen Dateneingabe drastisch reduzieren und die Buchhaltungsaufgaben rationalisieren. Die wichtigsten Vorteile sind:
Höhere Produktivität durch Automatisierung der Dateneingabe.
Verbesserte Genauigkeit, da OCR die Wahrscheinlichkeit menschlicher Fehler verringert.
Nahtlose Integration mit Buchhaltungssoftware und -systemen für eine effiziente Datenverwaltung.
OCR-Untertitelgenerierung
Das Erstellen von Untertiteln für Videos kann zeitaufwendig und arbeitsintensiv sein. Die OCR-Computervision in C# kann diesen Prozess vereinfachen, indem sie den Bildschirmtext automatisch erkennt und transkribiert, wodurch Entwicklern ermöglicht wird:
Erstellen Sie präzise Untertitel für Filme, Fernsehsendungen und Online-Videos.
Verbessern Sie die Zugänglichkeit für Menschen mit Hörbehinderungen oder für Menschen, die verschiedene Sprachen sprechen.
Verstärkung der SEO-Bemühungen durch Bereitstellung durchsuchbarer, indizierbarer Inhalte für die Videoplattform
OCR-PDF-Verarbeitung
PDF-Dateien werden häufig für die gemeinsame Nutzung und Speicherung von Dokumenten verwendet, aber das Extrahieren von Text aus diesen Dateien kann schwierig sein. OCR-Computervision in C# kann Entwicklern helfen, OCR-Anwendungen zu erstellen, die mühelos PDF-Dateien verarbeiten und deren Inhalte extrahieren, was Folgendes erleichtert:
Einfache Konvertierung von PDFs in bearbeitbare Dateiformate wie Word, Excel oder einfachen Text.
Effiziente Datenextraktion für Analyse, Indexierung oder Weiterverarbeitung.
Die OCR-Technologie wird häufig eingesetzt, um Daten aus Eingangsdaten wie Rechnungen, Quittungen und Formularen zu extrahieren. OCR-Modelle können wichtige Datenfelder wie Namen, Adressen, Daten und Beträge erkennen und extrahieren. Dadurch entfällt die Notwendigkeit der manuellen Dateneingabe und die Fehlerquote bei der Datenverarbeitung wird reduziert.
Bildsuche
Die OCR-Technologie wird auch für die Bildsuche verwendet, bei der Sie anhand des darin enthaltenen Textes nach Bildern suchen können. Dies ist besonders nützlich für große Bildbibliotheken, bei denen eine manuelle Suche sehr zeitaufwändig wäre.
Übersetzung
OCR-Software kann verwendet werden, um Text aus Dokumenten in einer Sprache zu extrahieren und ihn in eine andere Sprache zu übersetzen. Dies ist besonders nützlich für internationale Unternehmen, bei denen die Dokumente schnell und präzise übersetzt werden müssen.
Zusammenfassung
Optische Zeichenerkennung (OCR) ist eine Technologie, die es Computern ermöglicht, Text aus Bildern zu lesen. OCR in Verbindung mit Computer Vision ist wichtig, weil sie es Maschinen ermöglicht, die visuelle Welt zu verstehen und zu interpretieren, was für Anwendungen wie selbstfahrende Autos, Robotik und automatische Dokumentenverarbeitung unerlässlich ist.
IronOCR ist eine leistungsstarke OCR-Engine, mit der OCR mit Computer Vision angewendet werden kann, um Text genau zu erkennen und Text aus Bildern zu extrahieren. Es bietet eine Reihe von Methoden zum Finden und Extrahieren von Textbereichen, einschließlich FindTextRegion, FindMultipleTextRegions und GetTextRegions. Jede Methode verfügt über einen eigenen Satz von Parametern, die verwendet werden können, um den OCR-Prozess feinabzustimmen und eine hohe OCR-Genauigkeit zu gewährleisten.
Durch die Verwendung von IronOCR können Sie den gescannten Text aus Eingabebildern schnell und genau extrahieren, indem Sie Parallelität und angepasste Konfiguration nutzen, was Ihnen Zeit und Aufwand spart, wenn Sie mit großen Datenmengen von Eingabebildern arbeiten. Egal, ob Sie mit gescannten Dokumenten, Fotos oder Screenshots arbeiten, IronOCR kann Ihnen helfen, den darin enthaltenen Text zu entschlüsseln.
IronOCR bietet eine kostenlose Testversion für Benutzer, die die Software vor einer Kaufentscheidung testen möchten. Die Lizenz für IronOCR beginnt bei $749 und beinhaltet Support und Updates für ein Jahr. Mit seinen robusten Funktionen und dem günstigen Preis ist IronOCR eine gute Wahl für alle, die eine zuverlässige OCR-Lösung mit hoher OCR-Genauigkeit suchen.
Bevor er Software-Ingenieur wurde, promovierte Kannapat an der Universität Hokkaido in Japan im Bereich Umweltressourcen. Während seines Studiums wurde Kannapat auch Mitglied des Vehicle Robotics Laboratory, das Teil der Abteilung für Bioproduktionstechnik ist. Im Jahr 2022 wechselte er mit seinen C#-Kenntnissen zum Engineering-Team von Iron Software, wo er sich auf IronPDF konzentriert. Kannapat schätzt an seiner Arbeit, dass er direkt von dem Entwickler lernt, der den Großteil des in IronPDF verwendeten Codes schreibt. Neben dem kollegialen Lernen genießt Kannapat auch den sozialen Aspekt der Arbeit bei Iron Software. Wenn er nicht gerade Code oder Dokumentationen schreibt, kann man Kannapat normalerweise beim Spielen auf seiner PS5 oder beim Wiedersehen mit The Last of Us antreffen.