OCR-Konfiguration für fortgeschrittenes Lesen

This article was translated from English: Does it need improvement?
Translated
View the article in English

IronOCR bietet fortschrittliche Scan-Lesemethoden wie ReadPassport, ReadLicensePlate und ReadPhoto, die über Standard-OCR hinausgehen. Diese Methoden basieren auf dem IronOcr.Extensions.AdvancedScan-Paket. Um die Textverarbeitung dieser Methoden fein abzustimmen, stellt IronOCR die Klasse TesseractConfiguration bereit, die Entwicklern volle Kontrolle über Zeichen-Whitelisting, Blacklisting, BarCode-Erkennung, das Auslesen von Datentabellen und vieles mehr gewährt.

Dieser Artikel behandelt die TesseractConfiguration-Eigenschaften für Fortgeschrittene sowie praktische Beispiele für die Konfiguration von OCR in realen Szenarien.

Schnellstart: OCR-Ausgabe auf eine Zeichen-Whitelist beschränken

Setzen Sie WhiteListCharacters auf TesseractConfiguration, bevor Sie Read aufrufen. Jedes Zeichen, das nicht in der Whitelist enthalten ist, wird stillschweigend aus dem Ergebnis entfernt, wodurch Störsignale ohne jegliche Nachbearbeitung eliminiert werden.

  1. Installieren Sie IronOCR mit NuGet Package Manager

    PM > Install-Package IronOcr
  2. Kopieren Sie diesen Codeausschnitt und führen Sie ihn aus.

    var result = new IronTesseract() { Configuration = new TesseractConfiguration { WhiteListCharacters = "ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789- " } }.Read(new OcrInput("image.png")); Console.WriteLine(result.Text);
  3. Bereitstellen zum Testen in Ihrer Live-Umgebung

    Beginnen Sie noch heute, IronOCR in Ihrem Projekt zu verwenden, mit einer kostenlosen Testversion

    arrow pointer


TesseractConfiguration-Eigenschaften

Die Klasse TesseractConfiguration bietet die folgenden Eigenschaften zur Anpassung des OCR-Verhaltens. Diese werden über IronTesseract.Co/nfiguration festgelegt.

Eigenschaft Typ Beschreibung
WhiteListCharacters string In der OCR-Ausgabe werden nur die in dieser Zeichenfolge enthaltenen Zeichen erkannt. Alle anderen Zeichen werden ausgeschlossen.
BlackListCharacters string Zeichen in dieser Zeichenfolge werden aktiv ignoriert und aus der OCR-Ausgabe entfernt.
ReadBarCodes bool Aktiviert oder deaktiviert die BarCode-Erkennung innerhalb des Dokuments während der OCR-Verarbeitung.
ReadDataTables bool Aktiviert oder deaktiviert die Erkennung von Tabellenstrukturen innerhalb des Dokuments mithilfe von Tesseract.
PageSegmentationMode TesseractPageSegmentationMode Legt fest, wie Tesseract das Eingabebild segmentiert. Zu den Optionen gehören AutoOsd, Auto, SingleBlock, SingleLine, SingleWord, und mehr.
RenderSearchablePdf bool Wenn diese Option aktiviert ist, kann die OCR-Ausgabe als durchsuchbares PDF mit einer unsichtbaren Textebene gespeichert werden.
RenderHocr bool Wenn diese Option aktiviert ist, enthält die OCR-Ausgabe hOCR-Daten zur weiteren Verarbeitung oder zum Export.
TesseractVariables Dictionary<string, object> Bietet direkten Zugriff auf Low-Level-Konfigurationsvariablen von Tesseract für eine detaillierte Steuerung.

Das TesseractVariables-Wörterbuch geht noch einen Schritt weiter und stellt Hunderte von zugrunde liegenden Tesseract-Engine-Parametern für Fälle bereit, in denen die übergeordneten Eigenschaften nicht ausreichen.

Die folgenden Beispiele veranschaulichen die einzelnen Eigenschaftsgruppen, beginnend mit der Whitelist für Zeichen.

Einrichten einer Zeichen-Whitelist für Kfz-Kennzeichen

Ein häufiger Anwendungsfall für WhiteListCharacters ist die Beschränkung der OCR-Ausgabe auf die Zeichen, die auf einem Nummernschild vorkommen können: Großbuchstaben, Ziffern, Bindestriche und Leerzeichen. Dadurch werden Störsignale eliminiert und die Genauigkeit verbessert, indem die Engine angewiesen wird, alles zu ignorieren, was außerhalb des erwarteten Zeichensatzes liegt.

Eingabe

Der folgende Fahrzeugzulassungsdatensatz enthält eine Mischung aus Großbuchstaben, Kleinbuchstaben und Sonderzeichen (@, $, #, |, *), sowie die Zeichensetzung.

Kfz-Zulassungsbeleg mit gemischten Zeichen zur Demonstration der OCR-Whitelist

BlackListCharacters ergänzt die Whitelist, indem es bekannte Störsymbole wie , and*`.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-configurations-for-advanced-reading.cs
using IronOcr;

// Initialize the Tesseract OCR engine
IronTesseract ocr = new IronTesseract();

ocr.Configuration = new TesseractConfiguration
{
    // Whitelist only characters that appear on license plates
    WhiteListCharacters = "ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789- ",

    // Blacklist common noise characters
    BlackListCharacters = "`~@#$%&*",
};

var ocrInput = new OcrInput();
// Load the input image
ocrInput.LoadImage("advanced-input.png");
// Perform OCR on the input image with ReadPhoto method
var results = ocr.ReadPhoto(ocrInput);

// Print the filtered text result to the console
Console.WriteLine(results.Text);
Imports IronOcr

' Initialize the Tesseract OCR engine
Dim ocr As New IronTesseract()

ocr.Configuration = New TesseractConfiguration With {
    ' Whitelist only characters that appear on license plates
    .WhiteListCharacters = "ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789- ",
    
    ' Blacklist common noise characters
    .BlackListCharacters = "`~@#$%&*"
}

Dim ocrInput As New OcrInput()
' Load the input image
ocrInput.LoadImage("advanced-input.png")
' Perform OCR on the input image with ReadPhoto method
Dim results = ocr.ReadPhoto(ocrInput)

' Print the filtered text result to the console
Console.WriteLine(results.Text)
$vbLabelText   $csharpLabel

Ausgabe

OCR-Ausgabe, die nur Zeichen aus der Whitelist für Kfz-Kennzeichen anzeigt

Die Whitelist-Filterung ist in den Ergebnissen deutlich erkennbar:

  • "Plate: ABC-1234" wird zu "P ABC-1234". Das kleingeschriebene Wort "late:" wird weggelassen, während die Kennzeichen-Nummer exakt beibehalten wird.
  • "VIN: 1HGBH41JXMN109186" wird zu "VIN 1HGBH41JXMN109186". Der Doppelpunkt wird weggelassen, aber das großgeschriebene VIN und die vollständige Nummer bleiben erhalten.
  • "Owner: john.doe@email.com" wird zu "O". Die vollständig in Kleinbuchstaben geschriebene E-Mail-Adresse und die Satzzeichen werden entfernt.
  • "Region: CA-90210 | "Zone #5" wird zu "R CA-90210 Z 5". Das Pipe-Zeichen (|) and hash (#) werden entfernt, während Großbuchstaben und Zahlen erhalten bleiben.
  • "Gebühr: 125,00 $ + MwSt*" wird zu "F 12500". Das Dollarzeichen, der Dezimalpunkt, das Pluszeichen und das kleingeschriebene "tax" werden entfernt.
  • "Ref: ~record_v2^final" wird zu "R 2". Die Tilde (~), der Unterstrich, das Caret (^) und alle Kleinbuchstaben werden entfernt.

Der gleiche Ansatz wie bei WhiteListCharacters und BlackListCharacters funktioniert für jede Art von Dokument, nicht nur für Nummernschilder. Der nächste Abschnitt zeigt, wie ein Reader erweitert werden kann, um Barcodes und Tabellenstrukturen im selben Durchlauf zu erkennen.

Konfiguration des Lesens von BarCodes und Datentabellen

IronOCR kann neben Text auch BarCodes und strukturierte Tabellen in Dokumenten erkennen. Diese Funktionen werden über TesseractConfiguration gesteuert:

IronTesseract ocr = new IronTesseract();

ocr.Co/nfiguration = new TesseractConfiguration
{
    // Enable barcode detection within documents
    ReadBarCodes = true,

    // Enable table structure detection
    ReadDataTables = true,
};
IronTesseract ocr = new IronTesseract();

ocr.Co/nfiguration = new TesseractConfiguration
{
    // Enable barcode detection within documents
    ReadBarCodes = true,

    // Enable table structure detection
    ReadDataTables = true,
};
Dim ocr As New IronTesseract()

ocr.Configuration = New TesseractConfiguration With {
    .ReadBarCodes = True,
    .ReadDataTables = True
}
$vbLabelText   $csharpLabel
  • ReadBarCodes: Bei der Einstellung true scannt IronOCR das Dokument zusätzlich zum Text auch nach BarCodes. Setzen Sie den Wert auf false, um die BarCode-Erkennung zu überspringen und die Verarbeitung zu beschleunigen, wenn keine BarCodes erwartet werden.
  • ReadDataTables: Bei der Einstellung true versucht Tesseract, Tabellenstrukturen im Dokument zu erkennen und beizubehalten. Dies ist nützlich für Rechnungen, Berichte und andere tabellarische Dokumente.

Diese Optionen können mit WhiteListCharacters und BlackListCharacters kombiniert werden, um präzise zu steuern, was aus komplexen Dokumenten extrahiert wird.

Während Filterung und Erkennung steuern, was extrahiert wird, ist die Interpretation des Layouts ein separates Thema. Im nächsten Abschnitt wird erläutert, wie man den richtigen PageSegmentationMode für den Dokumenttyp auswählt.

Steuerung des Seitensegmentierungsmodus

PageSegmentationMode teilt Tesseract mit, wie das Eingabebild vor der Erkennung segmentiert werden soll. Die Wahl des falschen Modus für ein bestimmtes Layout führt dazu, dass die Engine Text falsch interpretiert oder ganz überspringt.

Modus Anwendungsfall
AutoOsd Automatische Layoutanalyse mit Erkennung von Ausrichtung und Schriftart
Auto Automatische Layoutanalyse ohne OSD (Standard)
SingleColumn Es wird davon ausgegangen, dass das Bild aus einer einzigen Textspalte besteht
SingleBlock Es wird davon ausgegangen, dass das Bild aus einem einzigen einheitlichen Textblock besteht
SingleLine Es wird davon ausgegangen, dass das Bild aus einer einzigen Textzeile besteht
SparseText Findet so viel Text wie möglich in beliebiger Reihenfolge

Bei einem Label oder Banner, das nur eine einzige Zeile enthält, macht SingleLine eine Analyse mehrerer Blöcke überflüssig und verbessert sowohl die Geschwindigkeit als auch die Genauigkeit.

Eingabe

single-line-label.png ist ein schmales Versandetikett mit genau einer Zeile fettgedrucktem Courier-Text: SHIPPING LABEL: TRK-2024-XR9-001.

Einzeiliges Versandetikett für den OCR-Segmentierungsmodus
IronTesseract ocr = new IronTesseract();

ocr.Co/nfiguration = new TesseractConfiguration
{
    PageSegmentationMode = TesseractPageSegmentationMode.SingleLine,
};

using OcrInput input = new OcrInput();
input.LoadImage("single-line-label.png");

OcrResult result = ocr.Read(input);
Console.WriteLine(result.Text);
IronTesseract ocr = new IronTesseract();

ocr.Co/nfiguration = new TesseractConfiguration
{
    PageSegmentationMode = TesseractPageSegmentationMode.SingleLine,
};

using OcrInput input = new OcrInput();
input.LoadImage("single-line-label.png");

OcrResult result = ocr.Read(input);
Console.WriteLine(result.Text);
Imports IronOcr

Dim ocr As New IronTesseract()

ocr.Configuration = New TesseractConfiguration With {
    .PageSegmentationMode = TesseractPageSegmentationMode.SingleLine
}

Using input As New OcrInput()
    input.LoadImage("single-line-label.png")

    Dim result As OcrResult = ocr.Read(input)
    Console.WriteLine(result.Text)
End Using
$vbLabelText   $csharpLabel

Bei einer gescannten Seite mit unregelmäßiger Textplatzierung stellt SparseText mehr Inhalt wieder her als Auto.

Eingabe

receipt-scan.png ist ein Thermobeleg von Corner Market mit vier Einzelposten (Kaffee, Muffin, Saft, Müsliriegel), einer gestrichelten Trennlinie, Zwischensumme, Steuer und Gesamtsumme. Bei dieser Art von Layout übersieht die Segmentierung in festen Blöcken Einträge an verschiedenen horizontalen Positionen.

Thermodruckbeleg für den OCR-Segmentierungsmodus
IronTesseract ocr = new IronTesseract();

ocr.Co/nfiguration = new TesseractConfiguration
{
    PageSegmentationMode = TesseractPageSegmentationMode.SparseText,
};

using OcrInput input = new OcrInput();
input.LoadImage("receipt-scan.png");

OcrResult result = ocr.Read(input);
Console.WriteLine(result.Text);
IronTesseract ocr = new IronTesseract();

ocr.Co/nfiguration = new TesseractConfiguration
{
    PageSegmentationMode = TesseractPageSegmentationMode.SparseText,
};

using OcrInput input = new OcrInput();
input.LoadImage("receipt-scan.png");

OcrResult result = ocr.Read(input);
Console.WriteLine(result.Text);
Imports IronOcr

Dim ocr As New IronTesseract()

ocr.Configuration = New TesseractConfiguration With {
    .PageSegmentationMode = TesseractPageSegmentationMode.SparseText
}

Using input As New OcrInput()
    input.LoadImage("receipt-scan.png")

    Dim result As OcrResult = ocr.Read(input)
    Console.WriteLine(result.Text)
End Using
$vbLabelText   $csharpLabel

Nachdem die Layout-Segmentierung an den Dokumenttyp angepasst wurde, besteht der nächste Schritt darin, das Ausgabeformat für die nachgelagerte Verarbeitung zu steuern.

Erstellung durchsuchbarer PDFs und hOCR-Ausgabe

RenderSearchablePdf und RenderHocr steuern die Ausgabeformate, die IronOCR neben dem Ergebnis im Klartext erzeugt.

RenderSearchablePdf fügt eine unsichtbare Textebene über das Originalbild ein und erzeugt so eine PDF-Datei, in der Benutzer Text suchen und kopieren können, während das gescannte Bild sichtbar bleibt. Dies ist das Standardausgabeformat für Dokumentenarchivierungs-Workflows.

Eingabe

scanned-document.pdf ist ein einseitiges Geschäftsschreiben von IronOCR Solutions Ltd. (datiert auf den 15. März 2024, Referenz DOC-2024-OCR-0315). Das Ergebnis wird als searchable-output.pdf gespeichert.

IronTesseract ocr = new IronTesseract();

ocr.Co/nfiguration = new TesseractConfiguration
{
    RenderSearchablePdf = true,
};

using OcrInput input = new OcrInput();
input.LoadPdf("scanned-document.pdf");

OcrResult result = ocr.Read(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
IronTesseract ocr = new IronTesseract();

ocr.Co/nfiguration = new TesseractConfiguration
{
    RenderSearchablePdf = true,
};

using OcrInput input = new OcrInput();
input.LoadPdf("scanned-document.pdf");

OcrResult result = ocr.Read(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
Imports IronTesseract

Dim ocr As New IronTesseract()

ocr.Configuration = New TesseractConfiguration With {
    .RenderSearchablePdf = True
}

Using input As New OcrInput()
    input.LoadPdf("scanned-document.pdf")

    Dim result As OcrResult = ocr.Read(input)
    result.SaveAsSearchablePdf("searchable-output.pdf")
End Using
$vbLabelText   $csharpLabel

Ausgabe

Das Ergebnis ist eine PDF-Datei, die identisch mit der Eingabe aussieht, jedoch eine versteckte Textebene enthält. Öffnen Sie searchable-output.pdf und verwenden Sie Strg+F, um zu überprüfen, ob der eingebettete Text durchsuchbar und kopierbar ist.

RenderHocr erzeugt ein hOCR-Dokument, eine HTML-Datei, die den Textinhalt zusammen mit den Koordinaten der Begrenzungsrahmen für jedes WORD kodiert. Dies ist nützlich, wenn nachgelagerte Tools eine präzise Wortpositionierung benötigen, beispielsweise Redaktions-Engines oder Dokumentlayout-Analysen.

Eingabe

document-page.png ist eine Dokumentseite mit der Überschrift "Quartalsübersicht Q1 2024" und zwei Absätzen mit Finanzdaten zu Umsatz, Betriebskosten und Wachstumstreibern. Das Ergebnis wird als output.html gespeichert.

Eingabe der Dokumentseite für die Ausgabe des hOCR-Rahmens
IronTesseract ocr = new IronTesseract();

ocr.Co/nfiguration = new TesseractConfiguration
{
    RenderHocr = true,
};

using OcrInput input = new OcrInput();
input.LoadImage("document-page.png");

OcrResult result = ocr.Read(input);
result.SaveAsHocrFile("output.html");
IronTesseract ocr = new IronTesseract();

ocr.Co/nfiguration = new TesseractConfiguration
{
    RenderHocr = true,
};

using OcrInput input = new OcrInput();
input.LoadImage("document-page.png");

OcrResult result = ocr.Read(input);
result.SaveAsHocrFile("output.html");
Imports IronTesseract

Dim ocr As New IronTesseract()

ocr.Configuration = New TesseractConfiguration With {
    .RenderHocr = True
}

Using input As New OcrInput()
    input.LoadImage("document-page.png")

    Dim result As OcrResult = ocr.Read(input)
    result.SaveAsHocrFile("output.html")
End Using
$vbLabelText   $csharpLabel

Ausgabe

output.html kodiert jedes erkannte WORD mit den Koordinaten seines Begrenzungsrahmens. Öffnen Sie die Datei in einem Browser, um die hOCR-Struktur zu überprüfen, oder leiten Sie sie an ein nachgelagertes Tool zur Layoutanalyse oder Bearbeitung weiter.

Beide Flags können gleichzeitig aktiviert werden, wenn Sie alle drei Ausgabeformate (Klartext, durchsuchbares PDF und hOCR) aus einem einzigen Leseaufruf benötigen.

Diese Ausgabeflags funktionieren unabhängig von der gelesenen Sprache, einschließlich nicht-lateinischer Schriften. Der nächste Abschnitt zeigt, wie man Zeichenfilterung auf japanischen Text anwendet.

Unicode-Zeichenfilterung für internationale Dokumente

Bei internationalen Dokumenten in Chinesisch, Japanisch oder Koreanisch funktionieren die Eigenschaften WhiteListCharacters und BlackListCharacters mit Unicode-Zeichen. Dadurch können Sie die Ausgabe auf bestimmte Skripte beschränken, beispielsweise nur Hiragana und Katakana für Japanisch.

Hinweis: Stellen Sie sicher, dass das entsprechende Sprachpaket installiert wurde (z. B. IronOcr.Languages.Japanese), bevor Sie fortfahren.

Eingabe

Das Dokument enthält einen Titel (テスト), einen japanischen Satz, der Hiragana und Katakana mit Varianten der Stimmzeichen (プ, で) mischt, eine Preiszeile mit auf der Sperrliste stehenden Störsymbolen (★, ■) und Kanji (価格) sowie eine Notizzeile mit einem weiteren Symbol aus der Sperrliste (§), weiteren Kanji (購入), zusätzlichen Varianten der Stimmzeichen (プ, デ) und Basis-Katakana (メモ, ール). Die Whitelist lässt nur Basis-Hiragana, Basis-Katakana, Ziffern und gängige japanische Satzzeichen durch; Die drei Lärmsymbole stehen ausdrücklich auf der Sperrliste.

Erweiterte OCR-Konfiguration für japanische Eingabe

Die Unicode-Zeichenbereiche für Hiragana und Katakana werden als String-Literale in WhiteListCharacters übergeben, wobei die in BlackListCharacters aufgeführten Symbole als Störsignale dienen.

Warnung Die Konsole unterstützt möglicherweise die Anzeige von Unicode-Zeichen nicht. Die Umleitung der Ausgabe in eine .txt-Datei ist eine zuverlässige Methode, um die Ergebnisse bei der Verarbeitung solcher Zeichen zu überprüfen.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-configurations-for-advanced-reading-jp.cs
using IronOcr;
using System.IO;

IronTesseract ocr = new IronTesseract();

ocr.Configuration = new TesseractConfiguration
{
    // Whitelist only Hiragana, Katakana, numbers, and common Japanese punctuation
    WhiteListCharacters = "あいうえおかきくけこさしすせそたちつてとなにぬねのはひふへほまみむめもやゆよらりるれろわをん" +
                            "アイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワヲン" +
                            "0123456789、。?!()¥ー",

    // Blacklist common noise/symbols you want to ignore
    BlackListCharacters = "★■§",
};

var ocrInput = new OcrInput();

// Load Japanese input image
ocrInput.LoadImage("jp.png");

// Perform OCR on the input image with ReadPhoto method
var results = ocr.ReadPhoto(ocrInput);

// Write the text result directly to a file named "output.txt"
File.WriteAllText("output.txt", results.Text);

// You can add this line to confirm the file was saved:
Console.WriteLine("OCR results saved to output.txt");
Imports IronOcr
Imports System.IO

Dim ocr As New IronTesseract()

ocr.Configuration = New TesseractConfiguration With {
    .WhiteListCharacters = "あいうえおかきくけこさしすせそたちつてとなにぬねのはひふへほまみむめもやゆよらりるれろわをん" &
                           "アイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワヲン" &
                           "0123456789、。?!()¥ー",
    .BlackListCharacters = "★■§"
}

Dim ocrInput As New OcrInput()

' Load Japanese input image
ocrInput.LoadImage("jp.png")

' Perform OCR on the input image with ReadPhoto method
Dim results = ocr.ReadPhoto(ocrInput)

' Write the text result directly to a file named "output.txt"
File.WriteAllText("output.txt", results.Text)

' You can add this line to confirm the file was saved:
Console.WriteLine("OCR results saved to output.txt")
$vbLabelText   $csharpLabel

Ausgabe

Erweiterte OCR-Konfiguration – japanische Ausgabe

Die vollständige gefilterte Ausgabe ist als Textdatei verfügbar: jp-output.txt.

Da die Whitelist nur Basiszeichen von Hiragana und Katakana enthält, werden abgeleitete Varianten mit Stimmzeichen wie プ (pu) und デ (de) weggelassen. Kanji-Zeichen wie 価格 (Preis) und 購入 (Kauf) sind ebenfalls ausgeschlossen, da sie nicht zum zulässigen Zeichensatz gehören. Symbole auf der Blacklist wie , und § werden unabhängig von der Whitelist aktiv entfernt.

Wie geht es weiter?

Nachdem Sie nun wissen, wie Sie IronOCR für anspruchsvolle Leseszenarien konfigurieren, entdecken Sie:

Denken Sie daran, für den produktiven Einsatz eine Lizenz zu erwerben, um Wasserzeichen zu entfernen und den vollen Funktionsumfang nutzen zu können.

Häufig gestellte Fragen

Was ist TesseractConfiguration in IronOCR?

TesseractConfiguration in IronOCR ermöglicht es Benutzern, die OCR-Einstellungen anzupassen und so erweiterte Lesefunktionen wie Zeichen-Whitelists, Barcode-Lesen und mehrsprachige Unterstützung zu aktivieren.

Wie kann ich in IronOCR eine Zeichen-Whitelist einrichten?

In IronOCR können Sie mit TesseractConfiguration eine Zeichen-Whitelist einrichten, mit der Sie festlegen können, welche Zeichen die OCR-Engine erkennen soll. Dies ist nützlich für Aufgaben wie das Lesen von Kfz-Kennzeichen.

Kann IronOCR Barcodes und Datentabellen lesen?

Ja, IronOCR kann so konfiguriert werden, dass es Barcodes und Datentabellen liest, indem bestimmte Einstellungen in den TesseractConfiguration-Eigenschaften für eine präzise OCR-Datenextraktion angepasst werden.

Unterstützt IronOCR internationale Sprachen wie Chinesisch, Japanisch und Koreanisch?

IronOCR unterstützt internationale Sprachen, darunter Chinesisch, Japanisch und Koreanisch, durch seine mehrsprachigen TesseractConfiguration-Optionen.

Welche Vorteile bietet die Verwendung erweiterter OCR-Konfigurationen in IronOCR?

Durch die Nutzung fortschrittlicher OCR-Konfigurationen in IronOCR wird eine genauere und effizientere Texterkennung ermöglicht, wodurch spezialisierte Aufgaben wie die sprachspezifische Texterkennung und die Extraktion strukturierter Daten unterstützt werden.

Lässt sich IronOCR für spezifische OCR-Aufgaben optimieren?

Ja, IronOCR kann für spezifische OCR-Aufgaben optimiert werden, indem Einstellungen wie Zeichen-Whitelists konfiguriert und die Barcode- oder Tabellenerkennung aktiviert werden, wodurch die Leistung für die jeweiligen Anwendungen verbessert wird.

Wie aktiviere ich die Mehrsprachigkeitsunterstützung in IronOCR?

Um die Mehrsprachigkeit in IronOCR zu aktivieren, können Sie die Spracheinstellungen in der TesseractConfiguration anpassen, sodass die OCR-Engine Texte in mehreren Sprachen erkennen kann.

Was sind Zeichen-Whitelists und wie werden sie in IronOCR verwendet?

Zeichen-Whitelists in IronOCR sind Listen spezifischer Zeichen, die die OCR-Engine erkennen soll. Sie eignen sich ideal für gezielte Aufgaben wie das Lesen von Ziffern oder bestimmten Textmustern.

Kann IronOCR zum Lesen strukturierter Datenformate verwendet werden?

Ja, IronOCR kann so konfiguriert werden, dass es strukturierte Datenformate wie Barcodes und Tabellen lesen und verarbeiten kann und bietet somit vielseitige OCR-Funktionen für verschiedene Datenextraktionsanforderungen.

Welche Konfigurationen bietet IronOCR für die erweiterte Texterkennung?

IronOCR bietet Konfigurationen wie Zeichen-Whitelists, Mehrsprachigkeitsunterstützung und Barcode-Erkennung, um die erweiterten Texterkennungsfunktionen an spezifische Anforderungen anzupassen.

Curtis Chau
Technischer Autor

Curtis Chau hat einen Bachelor-Abschluss in Informatik von der Carleton University und ist spezialisiert auf Frontend-Entwicklung mit Expertise in Node.js, TypeScript, JavaScript und React. Leidenschaftlich widmet er sich der Erstellung intuitiver und ästhetisch ansprechender Benutzerschnittstellen und arbeitet gerne mit modernen Frameworks sowie der Erstellung gut strukturierter, optisch ansprechender ...

Weiterlesen
Bereit anzufangen?
Nuget Downloads 5,896,332 | Version: 2026.5 just released
Still Scrolling Icon

Scrollst du immer noch?

Sie brauchen schnell einen Beweis? PM > Install-Package IronOcr
Führen Sie ein Beispiel aus und beobachten Sie, wie Ihr Bild zu durchsuchbarem Text wird.