10 .NET API-Produkte für Ihre Bürodokumente
Textextraktion aus Bildern mit Hilfe von Software für maschinelles Lernen
Die Textextraktion aus aufgenommenen Textbildern oder gescannten Dokumenten mit Hilfe von maschinellem Lernen ist ein aufstrebendes Gebiet an der Schnittstelle von Computer Vision und natürlicher Sprachverarbeitung. Diese Technologie nutzt fortschrittliches maschinelles Lernen, Objekterkennungsalgorithmen, fortschrittliche Grafiksoftware, das Deep und Dark Web sowie neuronale Netzwerkarchitekturen, um Textinformationen aus Bildern und gescannten Papierdokumenten genau zu identifizieren und zu extrahieren. Durch den Einsatz verschiedener maschineller Lerntechnologien wie optische Zeichenerkennung (OCR) und Deep Learning ermöglicht es die automatisierte und effiziente Umwandlung der Erkennung von Texten in visuellen Szenen in editierbare und durchsuchbare strukturierte Daten sowie die Objekterkennung.
In dieser sich ständig weiterentwickelnden Landschaft bemühen sich Forscher und Praktiker kontinuierlich um eine Verbesserung der Genauigkeit, Geschwindigkeit und Vielseitigkeit, wodurch die Texterkennung und -extraktion aus Bildern, maschinenlesbaren Daten und gescannten Dokumenten zu einer zentralen Komponente in Anwendungen wie der Digitalisierung gedruckter Dokumente, der Indexierung von Inhalten, der Übersetzung und der Verbesserung der Barrierefreiheit wird.
In diesem Artikel werden wir erörtern, wie Sie mithilfe von IronOCR, einer OCR-Bibliothek, die von leistungsstarken Machine-Learning-Algorithmen und textbezogenen Funktionen unterstützt wird, Text aus Bildern extrahieren können. Textextraktion, auch bekannt als Schlagwortextraktion, basiert auf maschinellem Lernen, um automatisch relevante oder grundlegende Wörter und Phrasen aus unstrukturierten Daten oder der zentralen Datenbank des Unternehmens zu scannen und zu extrahieren.
Wie extrahiert man mit maschinellem Lernen Text aus einem Bild?
Laden Sie die C#-Bibliothek für die Textextraktion aus Bildern herunter.
Laden Sie ein bestimmtes Bild, indem Sie das OcrInput-Objekt für die Texterkennung in Szenen instanziieren.
Extrahieren Sie Daten aus dem Bild mit der ocrTesseract.Read-Methode.
Geben Sie den extrahierten Text in der Konsole mit der Methode Console.WriteLine aus.
- Führen Sie OCR auf dem Bereich eines Bildes mit dem CropRectangle-Objekt aus.
IronOCR- Eine OCR(Optical Character Recognition) Bibliothek
IronOCR, eine führende und anspruchsvolle optische Zeichenerkennungssoftware (OCR), steht an der Spitze der Textextraktionstechnologie aus Bildern und Dokumenten. Diese von Iron Software entwickelte, leistungsstarke OCR-Engine wurde entwickelt, um gescannte Bilder, PDFs oder sogar Fotos mit Text präzise und effizient in bearbeitbare und durchsuchbare digitale Inhalte zu konvertieren. Durch den geschickten Einsatz von Algorithmen des maschinellen Lernens und neuronalen Netzen bietet IronOCR eine robuste Lösung für verschiedene Anwendungen, darunter Datenextraktion, Inhaltsindizierung und Automatisierungsprozesse, die eine präzise Texterkennung erfordern.
Seine Fähigkeit, mehrere Sprachen und verschiedene Schriftarten zu verarbeiten, macht es zu einem vielseitigen Werkzeug für Entwickler und Unternehmen, die eine optimierte Texterkennungsalgorithmus-Extraktionsfunktion für ihre Software und Anwendungen suchen. Sie können IronOCR zum automatischen Scannen von Text verwenden, wobei eine gängige Texterkennungstechnik zum Einsatz kommt, die unstrukturierte Daten mithilfe von Textextraktionsalgorithmen in eine perfekt gescannte Seite umwandelt.
Installation von IronOCR
IronOCR kann mit dem NuGet Package Manager installiert werden. Hier sind die Schritte, um IronOCR zu installieren.
Erstellen Sie zunächst ein neues C# Visual Studio Projekt oder öffnen Sie ein bestehendes Projekt.
Sobald das Projekt erstellt ist, gehen Sie im oberen Menü auf Tools und wählen Sie NuGet Package Manager und dann NuGet Package Manager for Solution.
Ein neues Fenster wird auf dem Bildschirm angezeigt. Gehen Sie auf die Registerkarte Durchsuchen und geben Sie IronOCR in die Suchleiste ein.
Es erscheint eine Liste der IronOCR-Pakete, wählen Sie das neueste aus und klicken Sie auf Installieren.
- Es wird ein paar Sekunden dauern, abhängig von Ihrem Internet, danach ist IronOCR bereit, in Ihrem C# Projekt verwendet zu werden.
Texterkennung von Bildern zu bearbeitbaren und durchsuchbaren Daten
Mit IronOCR können Sie den Text mithilfe von Bildverarbeitungstechniken und maschinellem Lernen leicht extrahieren. In diesem Abschnitt wird erläutert, wie man mit IronOCR Text aus Bildern extrahiert.
using IronOcr;
using System;
var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput(@"images\image.png"))
{
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using System;
var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput(@"images\image.png"))
{
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports System
Private ocrTesseract = New IronTesseract()
Using ocrInput As New OcrInput("images\image.png")
Dim ocrResult = ocrTesseract.Read(ocrInput)
Console.WriteLine(ocrResult.Text)
End Using
Dieser C#-Code demonstriert die Verwendung von IronOCR, einer Bibliothek für optische Zeichenerkennung (OCR). Hier ist eine schrittweise Erklärung:
- Bibliotheken importieren:
using IronOcr;
using System;
using IronOcr;
using System;
Imports IronOcr
Imports System
Der Code beginnt mit dem Import der erforderlichen Bibliotheken, einschließlich IronOcr, das die OCR-Funktionalität bereitstellt, und dem System-Namespace für allgemeine Funktionalitäten.
- Initialisierung von IronTesseract und Laden des Bildes:
var ocrTesseract = new IronTesseract();
var ocrTesseract = new IronTesseract();
IRON VB CONVERTER ERROR developers@ironsoftware.com
Diese Zeile erstellt eine Instanz von IronTesseract, der OCR-Engine, die von IronOCR bereitgestellt wird.
using (var ocrInput = new OcrInput(@"images\image.png"))
using (var ocrInput = new OcrInput(@"images\image.png"))
Using ocrInput As New OcrInput("images\image.png")
Ein OcrInput-Objekt wird mit dem Pfad zum zu verarbeitenden Bild instanziiert. In diesem Fall handelt es sich um die Bilddatei "image.png" im Verzeichnis "images".
- Durchführen von OCR und Extrahieren von Text:
var ocrResult = ocrTesseract.Read(ocrInput);
var ocrResult = ocrTesseract.Read(ocrInput);
IRON VB CONVERTER ERROR developers@ironsoftware.com
Diese Zeile ruft die Read-Methode der IronTesseract-Instanz auf und übergibt das OcrInput-Objekt. Diese Methode führt eine OCR an dem bereitgestellten Bild durch und extrahiert den Text.
- Anzeigen des extrahierten Textes:
Console.WriteLine(ocrResult.Text);
Console.WriteLine(ocrResult.Text);
Console.WriteLine(ocrResult.Text)
Schließlich wird der extrahierte Text mit Console.WriteLine auf der Konsole ausgegeben und zeigt das OCR-Ergebnis, das aus dem Bild gewonnen wurde.
Dieses Codeschnipsel verwendet IronOCR, um eine OCR-Texterkennung des angegebenen Bildes durchzuführen und den extrahierten Text auf der Konsole auszugeben.
Eingangsbild
Ausgabe
OCR für den angegebenen Bereich im Bild durchführen
Sie können mit IronOCR auch eine OCR für bestimmte Bildbereiche durchführen, hier ein Codebeispiel.
using IronOcr;
using IronSoftware.Drawing;
using System;
var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput())
{
var ContentArea = new CropRectangle(x: 20, y: 20, width: 400, height: 50);
ocrInput.AddImage("r3.png", ContentArea);
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using IronSoftware.Drawing;
using System;
var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput())
{
var ContentArea = new CropRectangle(x: 20, y: 20, width: 400, height: 50);
ocrInput.AddImage("r3.png", ContentArea);
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports IronSoftware.Drawing
Imports System
Private ocrTesseract = New IronTesseract()
Using ocrInput As New OcrInput()
Dim ContentArea = New CropRectangle(x:= 20, y:= 20, width:= 400, height:= 50)
ocrInput.AddImage("r3.png", ContentArea)
Dim ocrResult = ocrTesseract.Read(ocrInput)
Console.WriteLine(ocrResult.Text)
End Using
Dieser C#-Code verwendet die IronOCR-Bibliothek für die optische Zeichenerkennung (OCR). Es importiert zunächst die erforderlichen Bibliotheken, einschließlich IronOCR und System. Eine IronTesseract-Instanz, die OCR-Engine, wird erstellt. Der Code legt einen bestimmten ContentArea im Bild fest, der mit einem CropRectangle bearbeitet werden soll, und konzentriert sich dabei auf eine bestimmte Region. Das Bild ("r3.png") innerhalb dieses festgelegten Bereichs wird dann zur OCR-Verarbeitung hinzugefügt. Die OCR-Engine liest den angegebenen Inhaltsbereich, extrahiert den Text, und der resultierende Text wird mit Console.WriteLine auf der Konsole ausgegeben.
Ausgabe
Schlussfolgerung
Textextraktion aus Bildern durch maschinelles Lernen, insbesondere unter Verwendung von Optical Character Recognition (OCR)-Bibliotheken wie IronOCR, stellt einen transformativen Schritt an der Schnittstelle von Computer Vision und Natural Language Processing dar. Sowohl die OCR-Technologie als auch Deep-Learning-Techniken spielen eine zentrale Rolle bei der effizienten Umwandlung von visuellem Text in bearbeitbare und durchsuchbare Daten und dienen wichtigen Zwecken wie der Digitalisierung von Dokumenten, der Indexierung von Inhalten und der Verbesserung der Barrierefreiheit.
IronOCR, eine führende OCR-Bibliothek, ist ein Beispiel für das Potenzial dieser Verschmelzung. Sie zeichnet sich durch die präzise Umwandlung gescannter Bilder und PDFs in digitale, bearbeitbare Inhalte in mehreren Sprachen und Schriftarten aus. Die nahtlose Integration in Programmiersprachen wie C# ermöglicht eine rationelle Implementierung, wodurch die transformative Wirkung der Textextraktion aus Bildern in zahlreichen Anwendungen und Bereichen noch verstärkt wird.
Um mehr über IronOCR und alle damit verbundenen Funktionen zu erfahren, besuchen Sie diesen Link hier. Das vollständige Tutorial zum Extrahieren von Texten aus Bildern ist unter folgendem Link verfügbar. Eine IronOCR-Lizenz kann über diesen Link erworben werden.
Software zur Bearbeitung von Lebensversicherungsansprüchen
Software zum Drucken von Eintrittskarten für Veranstaltungen