OCR-WERKZEUGE

Wie man Bilder in Text umwandelt

Veröffentlicht 24. Oktober 2024
Teilen Sie:

Im heutigen digitalen Zeitalter müssen bildbasierte Inhalte in leicht lesbaren, editierbaren und durchsuchbaren Text umgewandelt werden. Dies ist besonders wichtig in Szenarien wie der Archivierung von papierbasierten Dokumenten, der Extraktion von Schlüsselinformationen aus Bildern oder der Digitalisierung von handschriftlichen oder gedruckten Materialien. Optische Zeichenerkennung(OCR) technology bietet eine Lösung zur Automatisierung dieses Konvertierungsprozesses. Ein äußerst zuverlässiges und effizientes Tool, um dies zu erreichen, ist IronOCR, eine robuste OCR-Bibliothek für .NET.

In diesem Artikel wird erklärt, wie man ein Bild in Text umwandelt, indem manIronOCRerfahren Sie, wie diese Konvertierung Zeit sparen, Fehler reduzieren und Prozesse wie Datenextraktion, Archivierung und Dokumentenverarbeitung optimieren kann.

Wie man Bilder in Text umwandelt

  1. Download einer C#-Bibliothek für OCR-Arbeiten

  2. Eine neue ` erstellenIronTesseract\Beispiel

  3. Laden Sie Ihr Bild mit `OcrImageInput`

  4. Lesen Sie den Inhalt des Bildes mit `*OcrRead`

  5. Exportieren der OCR-Ergebnisse in eine Textdatei

Warum ein Bild in Text umwandeln?

Es gibt viele Gründe, warum Sie ein Bild in Text umwandeln möchten, darunter:

  • Datenextraktion: Extrahieren von Text aus gescannten Dokumenten und Bildern für Archivierungs- oder Datenverarbeitungszwecke.
  • Bearbeiten von gescannten Inhalten: Bearbeiten oder Aktualisieren von Text in zuvor gescannten Dokumenten, um die Zeit für das manuelle Abtippen des Inhalts zu sparen.
  • Verbesserung der Zugänglichkeit: Konvertieren Sie gedrucktes Material in digitalen Text, um es für Bildschirmlesegeräte oder Text-to-Speech-Anwendungen zugänglich zu machen.
  • Automatisierung: Automatisieren Sie die Dateneingabe und -verarbeitung durch das Einlesen von Text aus Rechnungen, Quittungen oder Visitenkarten.

So beginnen Sie mit der Umwandlung von Bildern in Text

Bevor wir uns ansehen, wie die leistungsstarken Bild-zu-Text-Funktionen von IronOCR genutzt werden können, um Text aus Bildern zu extrahieren, werfen wir zunächst einen Blick auf den allgemeinen Schritt-für-Schritt-Prozess unter Verwendung eines Online-Tools,docsumo. Online-OCR-Tools sind eine hilfreiche Option für diejenigen, die gelegentlich oder sogar nur einmalig OCR-Aufgaben erledigen möchten, da sie keine manuelle Einrichtung erfordern. Wenn Sie regelmäßig OCR-Aufgaben durchführen müssen, ist ein leistungsfähiges OCR-Tool wie IronOCR natürlich besser für Sie geeignet.

  1. Navigieren Sie zum Online-OCR-Tool

  2. Laden Sie Ihr Bild hoch und beginnen Sie den Extraktionsprozess

  3. Laden Sie die resultierenden Daten als Textdokument herunter

Schritt eins: Navigieren Sie zum Online-OCR-Tool

Um die OCR-Technologie zum Extrahieren von Text aus Bilddateien zu nutzen, navigieren wir zunächst zu dem Online-OCR-Tool für Bilder, das wir verwenden möchten.

Wie man Bilder in Text umwandelt: Abbildung 1 - Docsumo OCR Tool

Schritt zwei: Laden Sie Ihr Bild hoch und beginnen Sie mit dem Extraktionsprozess

Mit einem Klick auf die Schaltfläche "Datei hochladen" können wir nun die Bilddatei hochladen, aus der wir den Text extrahieren möchten. Das Tool wird sofort mit der Verarbeitung des Bildes beginnen.

Wie man Bilder in Text umwandelt: Abbildung 2 - Docsumo - Dateiverarbeitung

Dritter Schritt: Herunterladen der resultierenden Daten als Textdokument

Nachdem die Bearbeitung des Bildes abgeschlossen ist, können wir den extrahierten Text als neues Textdokument herunterladen, um ihn weiter zu verwenden oder zu bearbeiten.

Wie man Bilder in Text umwandelt: Abbildung 3 - Docsumo - Bildverarbeitung abgeschlossen

Sie können sich die Datei auch ansehen und die verschiedenen Abschnitte markieren, um den darin enthaltenen Text zu lesen. Dies könnte besonders hilfreich sein, wenn Sie den Text in bestimmten Abschnitten nur ansehen möchten. Anschließend können Sie den Text immer noch als Textdokument, XLS oder JSON herunterladen.

Wie man Bilder in Text umwandelt: Abbildung 4

Erste Schritte mit IronOCR

IronOCR ist eine vielseitige .NET-Bibliothek, mit der Sie OCR-Operationen an Bildern durchführen können. Der Übersetzer verfügt über eine breite Palette von Funktionen und kann verschiedene Dateiformate verarbeiten(wie PNG, JPEG, TIFF und PDF)bildkorrekturen durchführen, Fachdokumente scannen(Pässe, Nummernschilder, etc)der Text soll erweiterte Informationen über die gescannten Dateien enthalten, gescannte Dokumente konvertieren und Text hervorheben.

Installieren Sie die IronOCR-Bibliothek

Bevor Sie mit dem Lesen von Bildern mit IronOCR beginnen können, müssen Sie es installieren, falls Sie es nicht bereits in Ihrem Projekt installiert haben. Sie können IronOCR einfach mit NuGet in Visual Studio installieren. Öffnen Sie die NuGet-Paketmanager-Konsole und führen Sie den folgenden Befehl aus:

Install-Package IronOcr
Install-Package IronOcr
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'Install-Package IronOcr
VB   C#

Alternativ können Sie IronOCR über die Seite NuGet Package Manager for Solution installieren, indem Sie nach IronOCR suchen.

Wie man Bilder in Text umwandelt: Abbildung 5

Um IronOCR in Ihrem Code zu verwenden, stellen Sie sicher, dass Sie die richtige Import-Anweisung am Anfang Ihres Codes haben:

using IronOcr;
using IronOcr;
Imports IronOcr
VB   C#

Bild in Text umwandeln: Ein einfaches Beispiel

Werfen wir zunächst einen Blick auf ein einfaches Bild-zu-Text-Beispiel mit IronOCR. Dies ist eine Kernfunktion jedes OCR-Tools, und für dieses Beispiel werden wir die PNG-Datei verwenden, die wir für das Online-Tool verwendet haben. In diesem Beispiel haben wir zunächst dieIronTesseract klasse erstellt und ihr die Variable 'ocr' zugewiesen. Wir verwenden dann dieOcrImageInput klasse, um ein neues OcrImageInput-Objekt aus der angegebenen Bilddatei zu erstellen. Schließlich ist dieLesen*die Methode * wird verwendet, um den Text aus dem Bild zu lesen, und gibt ein[OcrResult](/csharp/ocr/object-reference/api/IronOcr.OcrResult.html) objekt. Wir können dann auf den extrahierten Text zugreifen und ihn auf der Konsole anzeigen lassen, indem wir[ocrResult.Text**](/csharp/ocr/object-reference/api/IronOcr.OcrResult.html#IronOcr_OcrResult_Text).

using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
Imports IronOcr
Private ocr As New IronTesseract()
Private OcrImageInput As using
Private ocrResult As OcrResult = ocr.Read(image)
Console.WriteLine(ocrResult.Text)
VB   C#

Ausgabe Bild

Wie man Bilder in Text umwandelt: Abbildung 6

Umgang mit verschiedenen Bildformaten

IronOCR unterstützt mehrere Bildformate wie PNG, JPEG, BMP, GIF und TIFF. Der Prozess zum Lesen von Text aus verschiedenen Bildformaten bleibt derselbe, Sie müssen nur die Datei mit der richtigen Erweiterung laden.

using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.bmp");
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.bmp");
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
Imports IronOcr
Private ocr As New IronTesseract()
Private OcrImageInput As using
Private ocrResult As OcrResult = ocr.Read(image)
Console.WriteLine(ocrResult.Text)
VB   C#

Verbesserung der OCR-Genauigkeit

Die OCR-Leistung kann durch die Optimierung des Bildes und die Konfiguration von Optionen wie Sprache, Bildauflösung und Rauschgrad des Bildes verbessert werden. Hier erfahren Sie, wie Sie die OCR optimieren können, um die Genauigkeit der Textextraktion auf einem Bild, dessen Qualität verbessert werden muss, durch den Einsatz der*DeNoise() undSchärfen() methoden:

using IronOcr
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
image.DeNoise();
image.Sharpen();
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
using IronOcr
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
image.DeNoise();
image.Sharpen();
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
Using IronOcr IronTesseract ocr = New IronTesseract()
	Using image As New OcrImageInput("example.png")
		image.DeNoise()
		image.Sharpen()
		Dim ocrResult As OcrResult = ocr.Read(image)
		Console.WriteLine(ocrResult.Text)
	End Using
End Using
VB   C#

Exportieren des extrahierten Textes

Nachdem wir nun die Grundlagen des Bild-zu-Text-Prozesses kennen, wollen wir uns nun ansehen, wie wir den resultierenden Text zur späteren Verwendung exportieren können. Für dieses Beispiel werden wir den gleichen Prozess wie zuvor verwenden, um das Bild zu laden und es zu scannen. Dann, mit File.WriteAllText("output.txt", ocrResult.Text)Für die Übersetzung erstellen wir eine neue Textdatei mit dem Namen "output.txt" und speichern den extrahierten Text in dieser Datei.

using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
OcrResult ocrResult = ocr.Read(image);
File.WriteAllText("output.txt", ocrResult.Text);
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
OcrResult ocrResult = ocr.Read(image);
File.WriteAllText("output.txt", ocrResult.Text);
Imports IronOcr
Private ocr As New IronTesseract()
Private OcrImageInput As using
Private ocrResult As OcrResult = ocr.Read(image)
File.WriteAllText("output.txt", ocrResult.Text)
VB   C#

Wie man Bilder in Text umwandelt: Abbildung 7

Hauptmerkmale von IronOCR

  1. Hohe Genauigkeit: IronOCR verwendet fortschrittlicheTesserakt OCR-Algorithmen und enthält integrierte Tools zur Verarbeitung komplexer Bilder, die eine hohe Genauigkeit gewährleisten.

  2. Mehrsprachige Unterstützung:Unterstützt 125+ Sprachendie Übersetzung muss eine Vielzahl von Schriftzeichen wie Latein, Kyrillisch, Arabisch und asiatische Schriftzeichen enthalten. Es sollte jedoch beachtet werden, dass neben IronOCR nur Englisch installiert ist. Um andere Sprachen zu verwenden, müssen Sie das zusätzliche Sprachpaket für diese Sprache installieren.

  3. PDF-OCR: IronOCR kann Text extrahieren ausgescannte PDFsdas macht sie zu einem wertvollen Werkzeug für die Digitalisierung von Dokumenten.

  4. Bildbereinigung: Es bietet Vorverarbeitungswerkzeuge wie z. Bde-skewing, rauschentfernungundinversion zur Verbesserung der Bildqualität für eine bessere OCR-Genauigkeit.

  5. Einfache Integration: Die API lässt sich nahtlos in jedes .NET-Projekt integrieren, egal ob es sich um eine Konsolenanwendung, eine Webanwendung oder eine Desktop-Software handelt.

Häufige Anwendungsfälle für die Umwandlung von Bildern in Text

  • Automatisierte Dateneingabe: Unternehmen können OCR nutzen, um automatisch Daten aus Formularen, Quittungen oder Visitenkarten zu extrahieren.
  • Dokumentenarchivierung: Unternehmen können physische Dokumente digitalisieren, um sie durchsuchbar zu machen und einfacher zu speichern.
  • Barrierefreiheit: Konvertieren Sie gedruckte Materialien in Text für die Verwendung in Bildschirmlesegeräten oder anderen unterstützenden Technologien.
  • Recherche und Analyse: Konvertieren Sie gescannte Forschungsmaterialien schnell in Text zur Analyse oder Integration in andere Software-Tools.
  • Studium: Konvertieren Sie gescannte Studiennotizen in bearbeitbaren Text, den Sie dann als Word-Dokument speichern können, um ihn in Tools wie IronWord, Microsoft Word oder Google Docs weiter zu bearbeiten.

Schlussfolgerung

Die Konvertierung von Text aus einem Bild mit IronOCR ist eine schnelle, genaue und effiziente Methode, um Aufgaben der Dokumentenverarbeitung zu erledigen. Egal, ob Sie mit gescannten Dokumenten, digitalen Bildern oder PDF-Dokumenten arbeiten, IronOCR vereinfacht den Prozess und bietet hohe Genauigkeit, mehrsprachige Unterstützung und leistungsstarke Bildverarbeitungstools. Dieses Tool ist ideal für Unternehmen, die ihre Dokumentenmanagement-Workflows rationalisieren, die Datenextraktion automatisieren oder die Zugänglichkeit verbessern möchten.

Verwenden Sie diekostenloser Test sie können die leistungsstarken Funktionen von IronOCR noch heute selbst ausprobieren. Es dauert nur wenige Minuten, bis es in Ihrem Arbeitsbereich voll funktionsfähig ist, so dass Sie innerhalb kürzester Zeit mit der Verarbeitung von OCR-Aufgaben beginnen können!

< PREVIOUS
Easyocr vs Tesseract (Vergleich der OCR-Funktionen)
NÄCHSTES >
Quittungs-OCR-Bibliothek (Liste für Entwickler)

Sind Sie bereit, loszulegen? Version: 2024.11 gerade veröffentlicht

Gratis NuGet-Download Downloads insgesamt: 2,791,504 Lizenzen anzeigen >