OCR-Konfiguration für fortgeschrittenes Lesen
IronOCR bietet fortschrittliche Scan-Lesemethoden wie ReadPassport, ReadLicensePlate und ReadPhoto, die über die Standard-OCR hinausgehen. Diese Methoden basieren auf dem IronOcr.Extensions.AdvancedScan -Paket. Um die Textverarbeitung durch diese Methoden genauer abzustimmen, stellt IronOCR die Klasse TesseractConfiguration zur Verfügung und gibt Entwicklern damit die volle Kontrolle über die Whitelisting- und Blacklisting-Funktion für Zeichen, die Barcode-Erkennung, das Lesen von Datentabellen und vieles mehr.
Dieser Artikel behandelt die TesseractConfiguration Eigenschaften, die für fortgeschrittene Leser verfügbar sind, und praktische Beispiele für die Konfiguration von OCR in realen Szenarien.
Schnellstart: OCR-Ausgabe auf eine Zeichen-Whitelist beschränken
Setze WhiteListCharacters auf TesseractConfiguration, bevor du Read aufrufst. Alle Zeichen, die nicht auf der Positivliste stehen, werden stillschweigend aus dem Ergebnis entfernt, wodurch Störungen ohne Nachbearbeitung eliminiert werden.
-
Installieren Sie IronOCR mit NuGet Package Manager
PM > Install-Package IronOcr -
Kopieren Sie diesen Codeausschnitt und führen Sie ihn aus.
var result = new IronTesseract() { Configuration = new TesseractConfiguration { WhiteListCharacters = "ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789- " } }.Read(new OcrInput("image.png")); Console.WriteLine(result.Text); -
Bereitstellen zum Testen in Ihrer Live-Umgebung
Beginnen Sie noch heute, IronOCR in Ihrem Projekt zu verwenden, mit einer kostenlosen Testversion
So konfigurieren Sie OCR für fortgeschrittenes Lesen
- Installieren Sie IronOCR über NuGet.
- Installieren Sie das IronOcr.Extensions.AdvancedScan -Paket
- Konfigurieren Sie
TesseractConfigurationEigenschaften wieWhiteListCharactersundReadBarCodes - Lade das Eingabebild mit
OcrInput - Lesen Sie das Bild mithilfe einer erweiterten Methode wie
ReadPhoto,ReadLicensePlateoderReadPassport
Tesseract-Konfigurationseigenschaften
Die Klasse TesseractConfiguration bietet die folgenden Eigenschaften zur Anpassung des OCR-Verhaltens. Diese werden über IronTesseract.Configuration festgelegt.
| Eigenschaft | Typ | Beschreibung |
|---|---|---|
WhiteListCharacters |
zeichenfolge | Nur die in dieser Zeichenkette enthaltenen Zeichen werden in der OCR-Ausgabe erkannt. Alle anderen Zeichen werden ausgeschlossen. |
BlackListCharacters |
zeichenfolge | Zeichen in dieser Zeichenkette werden aktiv ignoriert und aus der OCR-Ausgabe entfernt. |
ReadBarCodes |
bool | Aktiviert oder deaktiviert die Barcode-Erkennung innerhalb des Dokuments während der OCR-Verarbeitung. |
ReadDataTables |
bool | Aktiviert oder deaktiviert die Tabellenstrukturerkennung innerhalb des Dokuments mithilfe von Tesseract. |
PageSegmentationMode |
TesseractPageSegmentationMode | Legt fest, wie Tesseract das Eingabebild segmentiert. Zu den Optionen gehören AutoOsd , Auto , SingleBlock , SingleLine , SingleWord und weitere. |
RenderSearchablePdf |
bool | Wenn diese Funktion aktiviert ist, kann die OCR-Ausgabe als durchsuchbares PDF mit einer unsichtbaren Textebene gespeichert werden. |
RenderHocr |
bool | Wenn diese Option aktiviert ist, enthält die OCR-Ausgabe auch hOCR-Daten zur Weiterverarbeitung oder zum Export. |
TesseractVariables |
Dictionary |
Ermöglicht den direkten Zugriff auf die Tesseract-Konfigurationsvariablen auf niedriger Ebene für eine detaillierte Steuerung. |
Das Wörterbuch TesseractVariables geht noch einen Schritt weiter und legt Hunderte von zugrunde liegenden Tesseract-Engine-Parametern für Fälle offen, in denen die Eigenschaften auf hoher Ebene nicht ausreichen.
Die folgenden Beispiele veranschaulichen jede Eigenschaftsgruppe, beginnend mit der Zeichen-Whitelist.
Einrichten einer Zeichen-Whitelist für Kfz-Kennzeichen
Ein häufiger Anwendungsfall für WhiteListCharacters ist die Beschränkung der OCR-Ausgabe auf die Zeichen, die auf einem Nummernschild vorkommen können: Großbuchstaben, Ziffern, Bindestriche und Leerzeichen. Dadurch werden Störungen beseitigt und die Genauigkeit verbessert, indem der Engine mitgeteilt wird, alles außerhalb des erwarteten Zeichensatzes zu ignorieren.
Eingabe
Der folgende Fahrzeugregistrierungseintrag enthält eine Mischung aus Großbuchstaben, Kleinbuchstaben und Sonderzeichen (@, $, #, |, *), und Interpunktion.
BlackListCharacters ergänzt die Whitelist, indem bekannte Rauschsymbole wie `, and * aktiv ausgeschlossen werden.
:path=/static-assets/ocr/content-code-examples/how-to/ocr-configurations-for-advanced-reading.cs
using IronOcr;
// Initialize the Tesseract OCR engine
IronTesseract ocr = new IronTesseract();
ocr.Configuration = new TesseractConfiguration
{
// Whitelist only characters that appear on license plates
WhiteListCharacters = "ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789- ",
// Blacklist common noise characters
BlackListCharacters = "`~@#$%&*",
};
var ocrInput = new OcrInput();
// Load the input image
ocrInput.LoadImage("advanced-input.png");
// Perform OCR on the input image with ReadPhoto method
var results = ocr.ReadPhoto(ocrInput);
// Print the filtered text result to the console
Console.WriteLine(results.Text);
Imports IronOcr
' Initialize the Tesseract OCR engine
Dim ocr As New IronTesseract()
ocr.Configuration = New TesseractConfiguration With {
' Whitelist only characters that appear on license plates
.WhiteListCharacters = "ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789- ",
' Blacklist common noise characters
.BlackListCharacters = "`~@#$%&*"
}
Dim ocrInput As New OcrInput()
' Load the input image
ocrInput.LoadImage("advanced-input.png")
' Perform OCR on the input image with ReadPhoto method
Dim results = ocr.ReadPhoto(ocrInput)
' Print the filtered text result to the console
Console.WriteLine(results.Text)
Ausgabe
Die Whitelist-Filterung ist in den Ergebnissen deutlich sichtbar:
- "Plate: ABC-1234" wird zu "P ABC-1234" . Das Wort "late:" in Kleinbuchstaben wird weggelassen, während das Kennzeichen exakt beibehalten wird.
- "VIN: 1HGBH41JXMN109186" wird zu "VIN 1HGBH41JXMN109186" . Der Doppelpunkt wird weggelassen, aber die VIN in Großbuchstaben und die vollständige Nummer bleiben erhalten.
- "Owner: john.doe@email.com" wird zu "O" . Die gesamte E-Mail-Adresse in Kleinbuchstaben und die Interpunktion wurden entfernt.
- Region: CA-90210 | Zone #5" wird zu "R CA-90210 Z 5" Die Das Rohr (
|) and hash (#) werden entfernt, während die Großbuchstaben und Zahlen erhalten bleiben. - "Gebühr: $125.00 + Steuer*" wird zu "F 12500" . Das Dollarzeichen, das Dezimalkomma, das Plus und der Kleinbuchstabe "tax" wurden entfernt.
- "Ref: ~record_v2^final" wird zu "R 2" . Die Tilde (
~), der Unterstrich, das Caret (^) und alle Kleinbuchstaben werden entfernt.
Der gleiche Ansatz WhiteListCharacters und BlackListCharacters funktioniert für jeden Dokumenttyp, nicht nur für Nummernschilder. Im nächsten Abschnitt wird gezeigt, wie man einen Lesevorgang erweitert, um Barcodes und Tabellenstrukturen im selben Durchlauf zu erkennen.
Konfigurieren des Barcode- und Datentabellenlesens
IronOCR kann neben Text auch Barcodes und strukturierte Tabellen in Dokumenten erkennen. Diese Funktionen werden über TesseractConfiguration gesteuert:
IronTesseract ocr = new IronTesseract();
ocr.Configuration = new TesseractConfiguration
{
// Enable barcode detection within documents
ReadBarCodes = true,
// Enable table structure detection
ReadDataTables = true,
};
IronTesseract ocr = new IronTesseract();
ocr.Configuration = new TesseractConfiguration
{
// Enable barcode detection within documents
ReadBarCodes = true,
// Enable table structure detection
ReadDataTables = true,
};
Dim ocr As New IronTesseract()
ocr.Configuration = New TesseractConfiguration With {
.ReadBarCodes = True,
.ReadDataTables = True
}
- ReadBarCodes : Wenn auf
trueeingestellt, scannt IronOCR das Dokument zusätzlich zum Text auch nach Barcodes. Setzen Sie den Wert auffalse, um die Barcode-Erkennung zu überspringen und die Verarbeitung zu beschleunigen, wenn keine Barcodes erwartet werden. - ReadDataTables : Wenn auf
truegesetzt, versucht Tesseract, Tabellenstrukturen im Dokument zu erkennen und beizubehalten. Dies ist nützlich für Rechnungen, Berichte und andere tabellarische Dokumente.
Diese Optionen können mit WhiteListCharacters und BlackListCharacters kombiniert werden, um eine präzise Kontrolle darüber zu erhalten, was aus komplexen Dokumenten extrahiert wird.
Während Filterung und Erkennung steuern, was extrahiert wird, ist die Layoutinterpretation ein separates Thema. Im nächsten Abschnitt wird beschrieben, wie Sie den richtigen PageSegmentationMode für den Dokumenttyp auswählen.
Steuerung des Seitensegmentierungsmodus
PageSegmentationMode teilt Tesseract mit, wie das Eingabebild vor der Erkennung segmentiert werden soll. Die Wahl des falschen Modus für ein bestimmtes Layout führt dazu, dass die Engine den Text falsch interpretiert oder ihn vollständig überspringt.
| Modus | Anwendungsfall |
|---|---|
AutoOsd |
Automatische Layoutanalyse mit Ausrichtungs- und Schrifterkennung |
Auto |
Automatische Layoutanalyse ohne OSD (Standard) |
SingleColumn |
Es wird davon ausgegangen, dass das Bild eine einzelne Textspalte ist. |
SingleBlock |
Es wird davon ausgegangen, dass es sich bei dem Bild um einen einzelnen, einheitlichen Textblock handelt. |
SingleLine |
Es wird davon ausgegangen, dass das Bild eine einzelne Textzeile ist. |
SparseText |
Findet so viel Text wie möglich in beliebiger Reihenfolge |
Bei einem Label oder Banner, das nur eine Zeile enthält, eliminiert SingleLine die Analyse mehrerer Blöcke und verbessert sowohl die Geschwindigkeit als auch die Genauigkeit.
Eingabe
single-line-label.png ist ein schmaler Versandaufkleber mit genau einer Zeile fettgedrucktem Kuriertext: SHIPPING LABEL: TRK-2024-XR9-001.
IronTesseract ocr = new IronTesseract();
ocr.Configuration = new TesseractConfiguration
{
PageSegmentationMode = TesseractPageSegmentationMode.SingleLine,
};
using OcrInput input = new OcrInput();
input.LoadImage("single-line-label.png");
OcrResult result = ocr.Read(input);
Console.WriteLine(result.Text);
IronTesseract ocr = new IronTesseract();
ocr.Configuration = new TesseractConfiguration
{
PageSegmentationMode = TesseractPageSegmentationMode.SingleLine,
};
using OcrInput input = new OcrInput();
input.LoadImage("single-line-label.png");
OcrResult result = ocr.Read(input);
Console.WriteLine(result.Text);
Imports IronOcr
Dim ocr As New IronTesseract()
ocr.Configuration = New TesseractConfiguration With {
.PageSegmentationMode = TesseractPageSegmentationMode.SingleLine
}
Using input As New OcrInput()
input.LoadImage("single-line-label.png")
Dim result As OcrResult = ocr.Read(input)
Console.WriteLine(result.Text)
End Using
Bei einer gescannten Seite mit unregelmäßiger Textanordnung stellt SparseText mehr Inhalt wieder her als Auto.
Eingabe
receipt-scan.png ist ein Thermobon von Corner Market mit vier Positionen (Kaffee, Muffin, Saft, Müsliriegel), einem gestrichelten Trennzeichen, Zwischensumme, Steuer und Gesamtbetrag. Dies ist die Art von Layout, bei der die Segmentierung in feste Blöcke Einträge an verschiedenen horizontalen Positionen nicht erfasst.
IronTesseract ocr = new IronTesseract();
ocr.Configuration = new TesseractConfiguration
{
PageSegmentationMode = TesseractPageSegmentationMode.SparseText,
};
using OcrInput input = new OcrInput();
input.LoadImage("receipt-scan.png");
OcrResult result = ocr.Read(input);
Console.WriteLine(result.Text);
IronTesseract ocr = new IronTesseract();
ocr.Configuration = new TesseractConfiguration
{
PageSegmentationMode = TesseractPageSegmentationMode.SparseText,
};
using OcrInput input = new OcrInput();
input.LoadImage("receipt-scan.png");
OcrResult result = ocr.Read(input);
Console.WriteLine(result.Text);
Imports IronTesseract
Dim ocr As New IronTesseract()
ocr.Configuration = New TesseractConfiguration With {
.PageSegmentationMode = TesseractPageSegmentationMode.SparseText
}
Using input As New OcrInput()
input.LoadImage("receipt-scan.png")
Dim result As OcrResult = ocr.Read(input)
Console.WriteLine(result.Text)
End Using
Nachdem die Layoutsegmentierung auf den Dokumenttyp abgestimmt wurde, besteht der nächste Schritt darin, das Ausgabeformat für die Weiterverarbeitung zu steuern.
Generieren durchsuchbarer PDFs und hOCR-Ausgabe
RenderSearchablePdf und RenderHocr steuern die Ausgabeformate, die IronOCR neben dem Klartext-Ergebnis erzeugt.
RenderSearchablePdf bettet eine unsichtbare Textebene über das Originalbild ein und erzeugt so eine PDF-Datei, in der Benutzer Text suchen und kopieren können, während das gescannte Bild sichtbar bleibt. Dies ist das Standardausgabeformat für Dokumentenarchivierungs-Workflows.
Eingabe
scanned-document.pdf ist ein einseitiges Geschäftsschreiben der IronOCR Solutions Ltd. (datiert 15. März 2024, Referenz DOC-2024-OCR-0315). Das Ergebnis wird als searchable-output.pdf gespeichert.
IronTesseract ocr = new IronTesseract();
ocr.Configuration = new TesseractConfiguration
{
RenderSearchablePdf = true,
};
using OcrInput input = new OcrInput();
input.LoadPdf("scanned-document.pdf");
OcrResult result = ocr.Read(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
IronTesseract ocr = new IronTesseract();
ocr.Configuration = new TesseractConfiguration
{
RenderSearchablePdf = true,
};
using OcrInput input = new OcrInput();
input.LoadPdf("scanned-document.pdf");
OcrResult result = ocr.Read(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
Imports IronOcr
Dim ocr As New IronTesseract()
ocr.Configuration = New TesseractConfiguration With {
.RenderSearchablePdf = True
}
Using input As New OcrInput()
input.LoadPdf("scanned-document.pdf")
Dim result As OcrResult = ocr.Read(input)
result.SaveAsSearchablePdf("searchable-output.pdf")
End Using
Ausgabe
Das Ergebnis ist eine PDF-Datei, die dem Eingabedokument identisch aussieht, aber eine versteckte Textebene enthält. Öffnen Sie searchable-output.pdf und verwenden Sie Strg+F, um zu überprüfen, ob der eingebettete Text durchsuchbar und kopierbar ist.
RenderHocr erzeugt ein hOCR-Dokument, eine HTML-Datei, die den Textinhalt zusammen mit den Begrenzungsrahmenkoordinaten für jedes Wort kodiert. Dies ist nützlich, wenn nachgelagerte Tools eine präzise Wortpositionierung benötigen, beispielsweise Schwärzungsprogramme oder Dokumentlayoutanalysen.
Eingabe
document-page.png ist eine Dokumentseite mit der Überschrift "Quartalszusammenfassung Q1 2024" und zwei Absätzen mit Finanzdaten zu Umsatz, Betriebskosten und Wachstumstreibern. Das Ergebnis wird als output.html gespeichert.
IronTesseract ocr = new IronTesseract();
ocr.Configuration = new TesseractConfiguration
{
RenderHocr = true,
};
using OcrInput input = new OcrInput();
input.LoadImage("document-page.png");
OcrResult result = ocr.Read(input);
result.SaveAsHocrFile("output.html");
IronTesseract ocr = new IronTesseract();
ocr.Configuration = new TesseractConfiguration
{
RenderHocr = true,
};
using OcrInput input = new OcrInput();
input.LoadImage("document-page.png");
OcrResult result = ocr.Read(input);
result.SaveAsHocrFile("output.html");
Imports IronOcr
Dim ocr As New IronTesseract()
ocr.Configuration = New TesseractConfiguration With {
.RenderHocr = True
}
Using input As New OcrInput()
input.LoadImage("document-page.png")
Dim result As OcrResult = ocr.Read(input)
result.SaveAsHocrFile("output.html")
End Using
Ausgabe
output.html kodiert jedes erkannte Wort mit seinen Begrenzungsbox-Koordinaten. Öffnen Sie die Datei in einem Browser, um die hOCR-Struktur zu untersuchen, oder übergeben Sie sie an ein nachgelagertes Tool zur Layoutanalyse oder Schwärzung.
Beide Flags können gleichzeitig aktiviert werden, wenn Sie alle drei Ausgabeformate (Klartext, durchsuchbares PDF und hOCR) aus einem einzigen Leseaufruf benötigen.
Diese Ausgabeflags funktionieren unabhängig von der gelesenen Sprache, einschließlich nicht-lateinischer Schriftsysteme. Im nächsten Abschnitt wird die Anwendung der Zeichenfilterung auf japanischen Text erläutert.
Unicode-Zeichenfilterung für internationale Dokumente
Bei internationalen Dokumenten in Chinesisch, Japanisch oder Koreanisch funktionieren die Eigenschaften WhiteListCharacters und BlackListCharacters mit Unicode-Zeichen. Dies ermöglicht es Ihnen, die Ausgabe auf bestimmte Schriftsysteme zu beschränken, z. B. nur Hiragana und Katakana für Japanisch.
Eingabe
Das Dokument enthält einen Titel (テスト), einen japanischen Satz, der Hiragana und Katakana mit stimmhaften Varianten (プ, で) mischt, eine Preiszeile mit auf der schwarzen Liste stehenden Rauschsymbolen (★, ■) und Kanji (価格) sowie eine Memozeile mit einem weiteren auf der schwarzen Liste stehenden Symbol (§), mehr Kanji (購入), zusätzlichen stimmhaften Varianten (プ, デ) und Basis-Katakana (メモ, ール). Die Whitelist lässt nur Hiragana-Basiszeichen, Katakana-Basiszeichen, Ziffern und gängige japanische Satzzeichen durch; Die drei Rauschsymbole sind explizit auf der schwarzen Liste.
Die Unicode-Zeichenbereiche für Hiragana und Katakana werden als Zeichenkettenliterale in WhiteListCharacters übergeben, wobei die Rauschsymbole in BlackListCharacters aufgeführt sind.
:path=/static-assets/ocr/content-code-examples/how-to/ocr-configurations-for-advanced-reading-jp.cs
using IronOcr;
using System.IO;
IronTesseract ocr = new IronTesseract();
ocr.Configuration = new TesseractConfiguration
{
// Whitelist only Hiragana, Katakana, numbers, and common Japanese punctuation
WhiteListCharacters = "あいうえおかきくけこさしすせそたちつてとなにぬねのはひふへほまみむめもやゆよらりるれろわをん" +
"アイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワヲン" +
"0123456789、。?!()¥ー",
// Blacklist common noise/symbols you want to ignore
BlackListCharacters = "★■§",
};
var ocrInput = new OcrInput();
// Load Japanese input image
ocrInput.LoadImage("jp.png");
// Perform OCR on the input image with ReadPhoto method
var results = ocr.ReadPhoto(ocrInput);
// Write the text result directly to a file named "output.txt"
File.WriteAllText("output.txt", results.Text);
// You can add this line to confirm the file was saved:
Console.WriteLine("OCR results saved to output.txt");
Imports IronOcr
Imports System.IO
Dim ocr As New IronTesseract()
ocr.Configuration = New TesseractConfiguration With {
.WhiteListCharacters = "あいうえおかきくけこさしすせそたちつてとなにぬねのはひふへほまみむめもやゆよらりるれろわをん" &
"アイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワヲン" &
"0123456789、。?!()¥ー",
.BlackListCharacters = "★■§"
}
Dim ocrInput As New OcrInput()
' Load Japanese input image
ocrInput.LoadImage("jp.png")
' Perform OCR on the input image with ReadPhoto method
Dim results = ocr.ReadPhoto(ocrInput)
' Write the text result directly to a file named "output.txt"
File.WriteAllText("output.txt", results.Text)
' You can add this line to confirm the file was saved:
Console.WriteLine("OCR results saved to output.txt")
Ausgabe
Die vollständige gefilterte Ausgabe ist als Textdatei verfügbar: jp-output.txt .
Da die Whitelist nur Hiragana- und Katakana-Basiszeichen enthält, werden abgeleitete Varianten mit stimmhafter Kennzeichnung wie プ (pu) und デ (de) nicht berücksichtigt. Kanji-Zeichen wie 価格 (Preis) und 購入 (Kauf) sind ebenfalls ausgeschlossen, da sie nicht zur Liste der zulässigen Zeichen gehören. Auf der Blacklist stehenden Symbole wie ★, ■ und § werden unabhängig von der Whitelist aktiv entfernt.
Wohin soll ich als Nächstes reisen?
Nachdem Sie nun wissen, wie Sie IronOCR für fortgeschrittene Leseszenarien konfigurieren, erkunden Sie Folgendes:
- Lesen bestimmter Dokumententypen wie Pässe und Kfz-Kennzeichen
- Barcode- und QR-Code-Lesung als eigenständiger OCR-Anwendungsfall
- Exportieren von hOCR und durchsuchbaren PDFs aus den verarbeiteten Ergebnissen
Für den produktiven Einsatz müssen Sie eine Lizenz erwerben, um Wasserzeichen zu entfernen und die volle Funktionalität zu nutzen.
Häufig gestellte Fragen
Was ist TesseractConfiguration in IronOCR?
TesseractConfiguration in IronOCR ermöglicht es Benutzern, die OCR-Einstellungen anzupassen und so erweiterte Lesefunktionen wie Zeichen-Whitelists, Barcode-Lesen und mehrsprachige Unterstützung zu aktivieren.
Wie kann ich in IronOCR eine Zeichen-Whitelist einrichten?
In IronOCR können Sie mit TesseractConfiguration eine Zeichen-Whitelist einrichten, mit der Sie festlegen können, welche Zeichen die OCR-Engine erkennen soll. Dies ist nützlich für Aufgaben wie das Lesen von Kfz-Kennzeichen.
Kann IronOCR Barcodes und Datentabellen lesen?
Ja, IronOCR kann so konfiguriert werden, dass es Barcodes und Datentabellen liest, indem bestimmte Einstellungen in den TesseractConfiguration-Eigenschaften für eine präzise OCR-Datenextraktion angepasst werden.
Unterstützt IronOCR internationale Sprachen wie Chinesisch, Japanisch und Koreanisch?
IronOCR unterstützt internationale Sprachen, darunter Chinesisch, Japanisch und Koreanisch, durch seine mehrsprachigen TesseractConfiguration-Optionen.
Welche Vorteile bietet die Verwendung erweiterter OCR-Konfigurationen in IronOCR?
Durch die Nutzung fortschrittlicher OCR-Konfigurationen in IronOCR wird eine genauere und effizientere Texterkennung ermöglicht, wodurch spezialisierte Aufgaben wie die sprachspezifische Texterkennung und die Extraktion strukturierter Daten unterstützt werden.
Lässt sich IronOCR für spezifische OCR-Aufgaben optimieren?
Ja, IronOCR kann für spezifische OCR-Aufgaben optimiert werden, indem Einstellungen wie Zeichen-Whitelists konfiguriert und die Barcode- oder Tabellenerkennung aktiviert werden, wodurch die Leistung für die jeweiligen Anwendungen verbessert wird.
Wie aktiviere ich die Mehrsprachigkeitsunterstützung in IronOCR?
Um die Mehrsprachigkeit in IronOCR zu aktivieren, können Sie die Spracheinstellungen in der TesseractConfiguration anpassen, sodass die OCR-Engine Texte in mehreren Sprachen erkennen kann.
Was sind Zeichen-Whitelists und wie werden sie in IronOCR verwendet?
Zeichen-Whitelists in IronOCR sind Listen spezifischer Zeichen, die die OCR-Engine erkennen soll. Sie eignen sich ideal für gezielte Aufgaben wie das Lesen von Ziffern oder bestimmten Textmustern.
Kann IronOCR zum Lesen strukturierter Datenformate verwendet werden?
Ja, IronOCR kann so konfiguriert werden, dass es strukturierte Datenformate wie Barcodes und Tabellen lesen und verarbeiten kann und bietet somit vielseitige OCR-Funktionen für verschiedene Datenextraktionsanforderungen.
Welche Konfigurationen bietet IronOCR für die erweiterte Texterkennung?
IronOCR bietet Konfigurationen wie Zeichen-Whitelists, Mehrsprachigkeitsunterstützung und Barcode-Erkennung, um die erweiterten Texterkennungsfunktionen an spezifische Anforderungen anzupassen.

