OCR-Konfiguration für fortgeschrittenes Lesen

This article was translated from English: Does it need improvement?
Translated
View the article in English

IronOCR bietet fortschrittliche Scan-Lesemethoden wie ReadPassport, ReadLicensePlate und ReadPhoto, die über die Standard-OCR hinausgehen. Diese Methoden basieren auf dem IronOcr.Extensions.AdvancedScan -Paket. Um die Textverarbeitung durch diese Methoden genauer abzustimmen, stellt IronOCR die Klasse TesseractConfiguration zur Verfügung und gibt Entwicklern damit die volle Kontrolle über die Whitelisting- und Blacklisting-Funktion für Zeichen, die Barcode-Erkennung, das Lesen von Datentabellen und vieles mehr.

Dieser Artikel behandelt die TesseractConfiguration Eigenschaften, die für fortgeschrittene Leser verfügbar sind, und praktische Beispiele für die Konfiguration von OCR in realen Szenarien.

Schnellstart: OCR-Ausgabe auf eine Zeichen-Whitelist beschränken

Setze WhiteListCharacters auf TesseractConfiguration, bevor du Read aufrufst. Alle Zeichen, die nicht auf der Positivliste stehen, werden stillschweigend aus dem Ergebnis entfernt, wodurch Störungen ohne Nachbearbeitung eliminiert werden.

  1. Installieren Sie IronOCR mit NuGet Package Manager

    PM > Install-Package IronOcr
  2. Kopieren Sie diesen Codeausschnitt und führen Sie ihn aus.

    var result = new IronTesseract() { Configuration = new TesseractConfiguration { WhiteListCharacters = "ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789- " } }.Read(new OcrInput("image.png")); Console.WriteLine(result.Text);
  3. Bereitstellen zum Testen in Ihrer Live-Umgebung

    Beginnen Sie noch heute, IronOCR in Ihrem Projekt zu verwenden, mit einer kostenlosen Testversion

    arrow pointer


Tesseract-Konfigurationseigenschaften

Die Klasse TesseractConfiguration bietet die folgenden Eigenschaften zur Anpassung des OCR-Verhaltens. Diese werden über IronTesseract.Configuration festgelegt.

Eigenschaft Typ Beschreibung
WhiteListCharacters zeichenfolge Nur die in dieser Zeichenkette enthaltenen Zeichen werden in der OCR-Ausgabe erkannt. Alle anderen Zeichen werden ausgeschlossen.
BlackListCharacters zeichenfolge Zeichen in dieser Zeichenkette werden aktiv ignoriert und aus der OCR-Ausgabe entfernt.
ReadBarCodes bool Aktiviert oder deaktiviert die Barcode-Erkennung innerhalb des Dokuments während der OCR-Verarbeitung.
ReadDataTables bool Aktiviert oder deaktiviert die Tabellenstrukturerkennung innerhalb des Dokuments mithilfe von Tesseract.
PageSegmentationMode TesseractPageSegmentationMode Legt fest, wie Tesseract das Eingabebild segmentiert. Zu den Optionen gehören AutoOsd , Auto , SingleBlock , SingleLine , SingleWord und weitere.
RenderSearchablePdf bool Wenn diese Funktion aktiviert ist, kann die OCR-Ausgabe als durchsuchbares PDF mit einer unsichtbaren Textebene gespeichert werden.
RenderHocr bool Wenn diese Option aktiviert ist, enthält die OCR-Ausgabe auch hOCR-Daten zur Weiterverarbeitung oder zum Export.
TesseractVariables Dictionary Ermöglicht den direkten Zugriff auf die Tesseract-Konfigurationsvariablen auf niedriger Ebene für eine detaillierte Steuerung.

Das Wörterbuch TesseractVariables geht noch einen Schritt weiter und legt Hunderte von zugrunde liegenden Tesseract-Engine-Parametern für Fälle offen, in denen die Eigenschaften auf hoher Ebene nicht ausreichen.

Die folgenden Beispiele veranschaulichen jede Eigenschaftsgruppe, beginnend mit der Zeichen-Whitelist.

Einrichten einer Zeichen-Whitelist für Kfz-Kennzeichen

Ein häufiger Anwendungsfall für WhiteListCharacters ist die Beschränkung der OCR-Ausgabe auf die Zeichen, die auf einem Nummernschild vorkommen können: Großbuchstaben, Ziffern, Bindestriche und Leerzeichen. Dadurch werden Störungen beseitigt und die Genauigkeit verbessert, indem der Engine mitgeteilt wird, alles außerhalb des erwarteten Zeichensatzes zu ignorieren.

Eingabe

Der folgende Fahrzeugregistrierungseintrag enthält eine Mischung aus Großbuchstaben, Kleinbuchstaben und Sonderzeichen (@, $, #, |, *), und Interpunktion.

Fahrzeugregistrierungsdatensatz mit gemischten Zeichen für die OCR-Whitelist-Demonstration

BlackListCharacters ergänzt die Whitelist, indem bekannte Rauschsymbole wie `, and * aktiv ausgeschlossen werden.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-configurations-for-advanced-reading.cs
using IronOcr;

// Initialize the Tesseract OCR engine
IronTesseract ocr = new IronTesseract();

ocr.Configuration = new TesseractConfiguration
{
    // Whitelist only characters that appear on license plates
    WhiteListCharacters = "ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789- ",

    // Blacklist common noise characters
    BlackListCharacters = "`~@#$%&*",
};

var ocrInput = new OcrInput();
// Load the input image
ocrInput.LoadImage("advanced-input.png");
// Perform OCR on the input image with ReadPhoto method
var results = ocr.ReadPhoto(ocrInput);

// Print the filtered text result to the console
Console.WriteLine(results.Text);
Imports IronOcr

' Initialize the Tesseract OCR engine
Dim ocr As New IronTesseract()

ocr.Configuration = New TesseractConfiguration With {
    ' Whitelist only characters that appear on license plates
    .WhiteListCharacters = "ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789- ",
    
    ' Blacklist common noise characters
    .BlackListCharacters = "`~@#$%&*"
}

Dim ocrInput As New OcrInput()
' Load the input image
ocrInput.LoadImage("advanced-input.png")
' Perform OCR on the input image with ReadPhoto method
Dim results = ocr.ReadPhoto(ocrInput)

' Print the filtered text result to the console
Console.WriteLine(results.Text)
$vbLabelText   $csharpLabel

Ausgabe

OCR-Ausgabe, die nur die zulässigen Kennzeichenzeichen anzeigt

Die Whitelist-Filterung ist in den Ergebnissen deutlich sichtbar:

  • "Plate: ABC-1234" wird zu "P ABC-1234" . Das Wort "late:" in Kleinbuchstaben wird weggelassen, während das Kennzeichen exakt beibehalten wird.
  • "VIN: 1HGBH41JXMN109186" wird zu "VIN 1HGBH41JXMN109186" . Der Doppelpunkt wird weggelassen, aber die VIN in Großbuchstaben und die vollständige Nummer bleiben erhalten.
  • "Owner: john.doe@email.com" wird zu "O" . Die gesamte E-Mail-Adresse in Kleinbuchstaben und die Interpunktion wurden entfernt. - Region: CA-90210 | Zone #5" wird zu "R CA-90210 Z 5" Die Das Rohr (|) and hash (#) werden entfernt, während die Großbuchstaben und Zahlen erhalten bleiben.
  • "Gebühr: $125.00 + Steuer*" wird zu "F 12500" . Das Dollarzeichen, das Dezimalkomma, das Plus und der Kleinbuchstabe "tax" wurden entfernt.
  • "Ref: ~record_v2^final" wird zu "R 2" . Die Tilde (~), der Unterstrich, das Caret (^) und alle Kleinbuchstaben werden entfernt.

Der gleiche Ansatz WhiteListCharacters und BlackListCharacters funktioniert für jeden Dokumenttyp, nicht nur für Nummernschilder. Im nächsten Abschnitt wird gezeigt, wie man einen Lesevorgang erweitert, um Barcodes und Tabellenstrukturen im selben Durchlauf zu erkennen.

Konfigurieren des Barcode- und Datentabellenlesens

IronOCR kann neben Text auch Barcodes und strukturierte Tabellen in Dokumenten erkennen. Diese Funktionen werden über TesseractConfiguration gesteuert:

IronTesseract ocr = new IronTesseract();

ocr.Configuration = new TesseractConfiguration
{
    // Enable barcode detection within documents
    ReadBarCodes = true,

    // Enable table structure detection
    ReadDataTables = true,
};
IronTesseract ocr = new IronTesseract();

ocr.Configuration = new TesseractConfiguration
{
    // Enable barcode detection within documents
    ReadBarCodes = true,

    // Enable table structure detection
    ReadDataTables = true,
};
Dim ocr As New IronTesseract()

ocr.Configuration = New TesseractConfiguration With {
    .ReadBarCodes = True,
    .ReadDataTables = True
}
$vbLabelText   $csharpLabel
  • ReadBarCodes : Wenn auf true eingestellt, scannt IronOCR das Dokument zusätzlich zum Text auch nach Barcodes. Setzen Sie den Wert auf false, um die Barcode-Erkennung zu überspringen und die Verarbeitung zu beschleunigen, wenn keine Barcodes erwartet werden.
  • ReadDataTables : Wenn auf true gesetzt, versucht Tesseract, Tabellenstrukturen im Dokument zu erkennen und beizubehalten. Dies ist nützlich für Rechnungen, Berichte und andere tabellarische Dokumente.

Diese Optionen können mit WhiteListCharacters und BlackListCharacters kombiniert werden, um eine präzise Kontrolle darüber zu erhalten, was aus komplexen Dokumenten extrahiert wird.

Während Filterung und Erkennung steuern, was extrahiert wird, ist die Layoutinterpretation ein separates Thema. Im nächsten Abschnitt wird beschrieben, wie Sie den richtigen PageSegmentationMode für den Dokumenttyp auswählen.

Steuerung des Seitensegmentierungsmodus

PageSegmentationMode teilt Tesseract mit, wie das Eingabebild vor der Erkennung segmentiert werden soll. Die Wahl des falschen Modus für ein bestimmtes Layout führt dazu, dass die Engine den Text falsch interpretiert oder ihn vollständig überspringt.

Modus Anwendungsfall
AutoOsd Automatische Layoutanalyse mit Ausrichtungs- und Schrifterkennung
Auto Automatische Layoutanalyse ohne OSD (Standard)
SingleColumn Es wird davon ausgegangen, dass das Bild eine einzelne Textspalte ist.
SingleBlock Es wird davon ausgegangen, dass es sich bei dem Bild um einen einzelnen, einheitlichen Textblock handelt.
SingleLine Es wird davon ausgegangen, dass das Bild eine einzelne Textzeile ist.
SparseText Findet so viel Text wie möglich in beliebiger Reihenfolge

Bei einem Label oder Banner, das nur eine Zeile enthält, eliminiert SingleLine die Analyse mehrerer Blöcke und verbessert sowohl die Geschwindigkeit als auch die Genauigkeit.

Eingabe

single-line-label.png ist ein schmaler Versandaufkleber mit genau einer Zeile fettgedrucktem Kuriertext: SHIPPING LABEL: TRK-2024-XR9-001.

Einzeiliges Versandetikett für den OCR-Segmentierungsmodus (Einzelzeilen).
IronTesseract ocr = new IronTesseract();

ocr.Configuration = new TesseractConfiguration
{
    PageSegmentationMode = TesseractPageSegmentationMode.SingleLine,
};

using OcrInput input = new OcrInput();
input.LoadImage("single-line-label.png");

OcrResult result = ocr.Read(input);
Console.WriteLine(result.Text);
IronTesseract ocr = new IronTesseract();

ocr.Configuration = new TesseractConfiguration
{
    PageSegmentationMode = TesseractPageSegmentationMode.SingleLine,
};

using OcrInput input = new OcrInput();
input.LoadImage("single-line-label.png");

OcrResult result = ocr.Read(input);
Console.WriteLine(result.Text);
Imports IronOcr

Dim ocr As New IronTesseract()

ocr.Configuration = New TesseractConfiguration With {
    .PageSegmentationMode = TesseractPageSegmentationMode.SingleLine
}

Using input As New OcrInput()
    input.LoadImage("single-line-label.png")

    Dim result As OcrResult = ocr.Read(input)
    Console.WriteLine(result.Text)
End Using
$vbLabelText   $csharpLabel

Bei einer gescannten Seite mit unregelmäßiger Textanordnung stellt SparseText mehr Inhalt wieder her als Auto.

Eingabe

receipt-scan.png ist ein Thermobon von Corner Market mit vier Positionen (Kaffee, Muffin, Saft, Müsliriegel), einem gestrichelten Trennzeichen, Zwischensumme, Steuer und Gesamtbetrag. Dies ist die Art von Layout, bei der die Segmentierung in feste Blöcke Einträge an verschiedenen horizontalen Positionen nicht erfasst.

Thermobon für den OCR-SparseText-Segmentierungsmodus
IronTesseract ocr = new IronTesseract();

ocr.Configuration = new TesseractConfiguration
{
    PageSegmentationMode = TesseractPageSegmentationMode.SparseText,
};

using OcrInput input = new OcrInput();
input.LoadImage("receipt-scan.png");

OcrResult result = ocr.Read(input);
Console.WriteLine(result.Text);
IronTesseract ocr = new IronTesseract();

ocr.Configuration = new TesseractConfiguration
{
    PageSegmentationMode = TesseractPageSegmentationMode.SparseText,
};

using OcrInput input = new OcrInput();
input.LoadImage("receipt-scan.png");

OcrResult result = ocr.Read(input);
Console.WriteLine(result.Text);
Imports IronTesseract

Dim ocr As New IronTesseract()

ocr.Configuration = New TesseractConfiguration With {
    .PageSegmentationMode = TesseractPageSegmentationMode.SparseText
}

Using input As New OcrInput()
    input.LoadImage("receipt-scan.png")

    Dim result As OcrResult = ocr.Read(input)
    Console.WriteLine(result.Text)
End Using
$vbLabelText   $csharpLabel

Nachdem die Layoutsegmentierung auf den Dokumenttyp abgestimmt wurde, besteht der nächste Schritt darin, das Ausgabeformat für die Weiterverarbeitung zu steuern.

Generieren durchsuchbarer PDFs und hOCR-Ausgabe

RenderSearchablePdf und RenderHocr steuern die Ausgabeformate, die IronOCR neben dem Klartext-Ergebnis erzeugt.

RenderSearchablePdf bettet eine unsichtbare Textebene über das Originalbild ein und erzeugt so eine PDF-Datei, in der Benutzer Text suchen und kopieren können, während das gescannte Bild sichtbar bleibt. Dies ist das Standardausgabeformat für Dokumentenarchivierungs-Workflows.

Eingabe

scanned-document.pdf ist ein einseitiges Geschäftsschreiben der IronOCR Solutions Ltd. (datiert 15. März 2024, Referenz DOC-2024-OCR-0315). Das Ergebnis wird als searchable-output.pdf gespeichert.

IronTesseract ocr = new IronTesseract();

ocr.Configuration = new TesseractConfiguration
{
    RenderSearchablePdf = true,
};

using OcrInput input = new OcrInput();
input.LoadPdf("scanned-document.pdf");

OcrResult result = ocr.Read(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
IronTesseract ocr = new IronTesseract();

ocr.Configuration = new TesseractConfiguration
{
    RenderSearchablePdf = true,
};

using OcrInput input = new OcrInput();
input.LoadPdf("scanned-document.pdf");

OcrResult result = ocr.Read(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
Imports IronOcr

Dim ocr As New IronTesseract()

ocr.Configuration = New TesseractConfiguration With {
    .RenderSearchablePdf = True
}

Using input As New OcrInput()
    input.LoadPdf("scanned-document.pdf")

    Dim result As OcrResult = ocr.Read(input)
    result.SaveAsSearchablePdf("searchable-output.pdf")
End Using
$vbLabelText   $csharpLabel

Ausgabe

Das Ergebnis ist eine PDF-Datei, die dem Eingabedokument identisch aussieht, aber eine versteckte Textebene enthält. Öffnen Sie searchable-output.pdf und verwenden Sie Strg+F, um zu überprüfen, ob der eingebettete Text durchsuchbar und kopierbar ist.

RenderHocr erzeugt ein hOCR-Dokument, eine HTML-Datei, die den Textinhalt zusammen mit den Begrenzungsrahmenkoordinaten für jedes Wort kodiert. Dies ist nützlich, wenn nachgelagerte Tools eine präzise Wortpositionierung benötigen, beispielsweise Schwärzungsprogramme oder Dokumentlayoutanalysen.

Eingabe

document-page.png ist eine Dokumentseite mit der Überschrift "Quartalszusammenfassung Q1 2024" und zwei Absätzen mit Finanzdaten zu Umsatz, Betriebskosten und Wachstumstreibern. Das Ergebnis wird als output.html gespeichert.

Dokumentseiteneingabe für hOCR-Begrenzungsrahmenausgabe
IronTesseract ocr = new IronTesseract();

ocr.Configuration = new TesseractConfiguration
{
    RenderHocr = true,
};

using OcrInput input = new OcrInput();
input.LoadImage("document-page.png");

OcrResult result = ocr.Read(input);
result.SaveAsHocrFile("output.html");
IronTesseract ocr = new IronTesseract();

ocr.Configuration = new TesseractConfiguration
{
    RenderHocr = true,
};

using OcrInput input = new OcrInput();
input.LoadImage("document-page.png");

OcrResult result = ocr.Read(input);
result.SaveAsHocrFile("output.html");
Imports IronOcr

Dim ocr As New IronTesseract()

ocr.Configuration = New TesseractConfiguration With {
    .RenderHocr = True
}

Using input As New OcrInput()
    input.LoadImage("document-page.png")

    Dim result As OcrResult = ocr.Read(input)
    result.SaveAsHocrFile("output.html")
End Using
$vbLabelText   $csharpLabel

Ausgabe

output.html kodiert jedes erkannte Wort mit seinen Begrenzungsbox-Koordinaten. Öffnen Sie die Datei in einem Browser, um die hOCR-Struktur zu untersuchen, oder übergeben Sie sie an ein nachgelagertes Tool zur Layoutanalyse oder Schwärzung.

Beide Flags können gleichzeitig aktiviert werden, wenn Sie alle drei Ausgabeformate (Klartext, durchsuchbares PDF und hOCR) aus einem einzigen Leseaufruf benötigen.

Diese Ausgabeflags funktionieren unabhängig von der gelesenen Sprache, einschließlich nicht-lateinischer Schriftsysteme. Im nächsten Abschnitt wird die Anwendung der Zeichenfilterung auf japanischen Text erläutert.

Unicode-Zeichenfilterung für internationale Dokumente

Bei internationalen Dokumenten in Chinesisch, Japanisch oder Koreanisch funktionieren die Eigenschaften WhiteListCharacters und BlackListCharacters mit Unicode-Zeichen. Dies ermöglicht es Ihnen, die Ausgabe auf bestimmte Schriftsysteme zu beschränken, z. B. nur Hiragana und Katakana für Japanisch.

Hinweis: Stellen Sie sicher, dass das entsprechende Sprachpaket installiert ist (z. B. IronOCR ), bevor Sie fortfahren.

Eingabe

Das Dokument enthält einen Titel (テスト), einen japanischen Satz, der Hiragana und Katakana mit stimmhaften Varianten (プ, で) mischt, eine Preiszeile mit auf der schwarzen Liste stehenden Rauschsymbolen (★, ■) und Kanji (価格) sowie eine Memozeile mit einem weiteren auf der schwarzen Liste stehenden Symbol (§), mehr Kanji (購入), zusätzlichen stimmhaften Varianten (プ, デ) und Basis-Katakana (メモ, ール). Die Whitelist lässt nur Hiragana-Basiszeichen, Katakana-Basiszeichen, Ziffern und gängige japanische Satzzeichen durch; Die drei Rauschsymbole sind explizit auf der schwarzen Liste.

OCR-Erweiterte Konfiguration Japanische Eingabe

Die Unicode-Zeichenbereiche für Hiragana und Katakana werden als Zeichenkettenliterale in WhiteListCharacters übergeben, wobei die Rauschsymbole in BlackListCharacters aufgeführt sind.

Warnung Die Konsole unterstützt möglicherweise nicht die Anzeige von Unicode-Zeichen. Die Umleitung der Ausgabe in eine .txt-Datei ist eine zuverlässige Methode, um Ergebnisse bei der Verarbeitung solcher Zeichen zu überprüfen.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-configurations-for-advanced-reading-jp.cs
using IronOcr;
using System.IO;

IronTesseract ocr = new IronTesseract();

ocr.Configuration = new TesseractConfiguration
{
    // Whitelist only Hiragana, Katakana, numbers, and common Japanese punctuation
    WhiteListCharacters = "あいうえおかきくけこさしすせそたちつてとなにぬねのはひふへほまみむめもやゆよらりるれろわをん" +
                            "アイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワヲン" +
                            "0123456789、。?!()¥ー",

    // Blacklist common noise/symbols you want to ignore
    BlackListCharacters = "★■§",
};

var ocrInput = new OcrInput();

// Load Japanese input image
ocrInput.LoadImage("jp.png");

// Perform OCR on the input image with ReadPhoto method
var results = ocr.ReadPhoto(ocrInput);

// Write the text result directly to a file named "output.txt"
File.WriteAllText("output.txt", results.Text);

// You can add this line to confirm the file was saved:
Console.WriteLine("OCR results saved to output.txt");
Imports IronOcr
Imports System.IO

Dim ocr As New IronTesseract()

ocr.Configuration = New TesseractConfiguration With {
    .WhiteListCharacters = "あいうえおかきくけこさしすせそたちつてとなにぬねのはひふへほまみむめもやゆよらりるれろわをん" &
                           "アイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワヲン" &
                           "0123456789、。?!()¥ー",
    .BlackListCharacters = "★■§"
}

Dim ocrInput As New OcrInput()

' Load Japanese input image
ocrInput.LoadImage("jp.png")

' Perform OCR on the input image with ReadPhoto method
Dim results = ocr.ReadPhoto(ocrInput)

' Write the text result directly to a file named "output.txt"
File.WriteAllText("output.txt", results.Text)

' You can add this line to confirm the file was saved:
Console.WriteLine("OCR results saved to output.txt")
$vbLabelText   $csharpLabel

Ausgabe

OCR-Erweiterte Konfiguration Japanische Ausgabe

Die vollständige gefilterte Ausgabe ist als Textdatei verfügbar: jp-output.txt .

Da die Whitelist nur Hiragana- und Katakana-Basiszeichen enthält, werden abgeleitete Varianten mit stimmhafter Kennzeichnung wie プ (pu) und デ (de) nicht berücksichtigt. Kanji-Zeichen wie 価格 (Preis) und 購入 (Kauf) sind ebenfalls ausgeschlossen, da sie nicht zur Liste der zulässigen Zeichen gehören. Auf der Blacklist stehenden Symbole wie , und § werden unabhängig von der Whitelist aktiv entfernt.

Wohin soll ich als Nächstes reisen?

Nachdem Sie nun wissen, wie Sie IronOCR für fortgeschrittene Leseszenarien konfigurieren, erkunden Sie Folgendes:

Für den produktiven Einsatz müssen Sie eine Lizenz erwerben, um Wasserzeichen zu entfernen und die volle Funktionalität zu nutzen.

Häufig gestellte Fragen

Was ist TesseractConfiguration in IronOCR?

TesseractConfiguration in IronOCR ermöglicht es Benutzern, die OCR-Einstellungen anzupassen und so erweiterte Lesefunktionen wie Zeichen-Whitelists, Barcode-Lesen und mehrsprachige Unterstützung zu aktivieren.

Wie kann ich in IronOCR eine Zeichen-Whitelist einrichten?

In IronOCR können Sie mit TesseractConfiguration eine Zeichen-Whitelist einrichten, mit der Sie festlegen können, welche Zeichen die OCR-Engine erkennen soll. Dies ist nützlich für Aufgaben wie das Lesen von Kfz-Kennzeichen.

Kann IronOCR Barcodes und Datentabellen lesen?

Ja, IronOCR kann so konfiguriert werden, dass es Barcodes und Datentabellen liest, indem bestimmte Einstellungen in den TesseractConfiguration-Eigenschaften für eine präzise OCR-Datenextraktion angepasst werden.

Unterstützt IronOCR internationale Sprachen wie Chinesisch, Japanisch und Koreanisch?

IronOCR unterstützt internationale Sprachen, darunter Chinesisch, Japanisch und Koreanisch, durch seine mehrsprachigen TesseractConfiguration-Optionen.

Welche Vorteile bietet die Verwendung erweiterter OCR-Konfigurationen in IronOCR?

Durch die Nutzung fortschrittlicher OCR-Konfigurationen in IronOCR wird eine genauere und effizientere Texterkennung ermöglicht, wodurch spezialisierte Aufgaben wie die sprachspezifische Texterkennung und die Extraktion strukturierter Daten unterstützt werden.

Lässt sich IronOCR für spezifische OCR-Aufgaben optimieren?

Ja, IronOCR kann für spezifische OCR-Aufgaben optimiert werden, indem Einstellungen wie Zeichen-Whitelists konfiguriert und die Barcode- oder Tabellenerkennung aktiviert werden, wodurch die Leistung für die jeweiligen Anwendungen verbessert wird.

Wie aktiviere ich die Mehrsprachigkeitsunterstützung in IronOCR?

Um die Mehrsprachigkeit in IronOCR zu aktivieren, können Sie die Spracheinstellungen in der TesseractConfiguration anpassen, sodass die OCR-Engine Texte in mehreren Sprachen erkennen kann.

Was sind Zeichen-Whitelists und wie werden sie in IronOCR verwendet?

Zeichen-Whitelists in IronOCR sind Listen spezifischer Zeichen, die die OCR-Engine erkennen soll. Sie eignen sich ideal für gezielte Aufgaben wie das Lesen von Ziffern oder bestimmten Textmustern.

Kann IronOCR zum Lesen strukturierter Datenformate verwendet werden?

Ja, IronOCR kann so konfiguriert werden, dass es strukturierte Datenformate wie Barcodes und Tabellen lesen und verarbeiten kann und bietet somit vielseitige OCR-Funktionen für verschiedene Datenextraktionsanforderungen.

Welche Konfigurationen bietet IronOCR für die erweiterte Texterkennung?

IronOCR bietet Konfigurationen wie Zeichen-Whitelists, Mehrsprachigkeitsunterstützung und Barcode-Erkennung, um die erweiterten Texterkennungsfunktionen an spezifische Anforderungen anzupassen.

Curtis Chau
Technischer Autor

Curtis Chau hat einen Bachelor-Abschluss in Informatik von der Carleton University und ist spezialisiert auf Frontend-Entwicklung mit Expertise in Node.js, TypeScript, JavaScript und React. Leidenschaftlich widmet er sich der Erstellung intuitiver und ästhetisch ansprechender Benutzerschnittstellen und arbeitet gerne mit modernen Frameworks sowie der Erstellung gut strukturierter, optisch ansprechender ...

Weiterlesen
Bereit anzufangen?
Nuget Downloads 5,570,591 | Version: 2026.4 gerade veröffentlicht
Still Scrolling Icon

Scrollst du immer noch?

Sie brauchen schnell einen Beweis? PM > Install-Package IronOcr
Führen Sie ein Beispiel aus und beobachten Sie, wie Ihr Bild zu durchsuchbarem Text wird.