OCR-Konfiguration für fortgeschrittenes Lesen
IronOCR bietet fortschrittliche Scan-Lesemethoden wie ReadPassport, ReadLicensePlate und ReadPhoto, die über Standard-OCR hinausgehen. Diese Methoden basieren auf dem IronOcr.Extensions.AdvancedScan-Paket. Um die Textverarbeitung dieser Methoden fein abzustimmen, stellt IronOCR die Klasse TesseractConfiguration bereit, die Entwicklern volle Kontrolle über Zeichen-Whitelisting, Blacklisting, BarCode-Erkennung, das Auslesen von Datentabellen und vieles mehr gewährt.
Dieser Artikel behandelt die TesseractConfiguration-Eigenschaften für Fortgeschrittene sowie praktische Beispiele für die Konfiguration von OCR in realen Szenarien.
Schnellstart: OCR-Ausgabe auf eine Zeichen-Whitelist beschränken
Setzen Sie WhiteListCharacters auf TesseractConfiguration, bevor Sie Read aufrufen. Jedes Zeichen, das nicht in der Whitelist enthalten ist, wird stillschweigend aus dem Ergebnis entfernt, wodurch Störsignale ohne jegliche Nachbearbeitung eliminiert werden.
-
Installieren Sie IronOCR mit NuGet Package Manager
PM > Install-Package IronOcr -
Kopieren Sie diesen Codeausschnitt und führen Sie ihn aus.
var result = new IronTesseract() { Configuration = new TesseractConfiguration { WhiteListCharacters = "ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789- " } }.Read(new OcrInput("image.png")); Console.WriteLine(result.Text); -
Bereitstellen zum Testen in Ihrer Live-Umgebung
Beginnen Sie noch heute, IronOCR in Ihrem Projekt zu verwenden, mit einer kostenlosen Testversion
So konfigurieren Sie OCR für das erweiterte Lesen
- Installieren Sie IronOCR über NuGet
- Installieren Sie das Paket "IronOcr.Extensions.AdvancedScan"
- Eigenschaften konfigurieren
TesseractConfigurationEigenschaften wieWhiteListCharactersundReadBarCodes - Laden Sie das Eingabebild mit
OcrInput - Lesen Sie das Bild mit einer fortgeschrittenen Methode wie
ReadPhoto,ReadLicensePlate, oderReadPassport
TesseractConfiguration-Eigenschaften
Die Klasse TesseractConfiguration bietet die folgenden Eigenschaften zur Anpassung des OCR-Verhaltens. Diese werden über IronTesseract.Co/nfiguration festgelegt.
| Eigenschaft | Typ | Beschreibung |
|---|---|---|
WhiteListCharacters |
string | In der OCR-Ausgabe werden nur die in dieser Zeichenfolge enthaltenen Zeichen erkannt. Alle anderen Zeichen werden ausgeschlossen. |
BlackListCharacters |
string | Zeichen in dieser Zeichenfolge werden aktiv ignoriert und aus der OCR-Ausgabe entfernt. |
ReadBarCodes |
bool | Aktiviert oder deaktiviert die BarCode-Erkennung innerhalb des Dokuments während der OCR-Verarbeitung. |
ReadDataTables |
bool | Aktiviert oder deaktiviert die Erkennung von Tabellenstrukturen innerhalb des Dokuments mithilfe von Tesseract. |
PageSegmentationMode |
TesseractPageSegmentationMode | Legt fest, wie Tesseract das Eingabebild segmentiert. Zu den Optionen gehören AutoOsd, Auto, SingleBlock, SingleLine, SingleWord, und mehr. |
RenderSearchablePdf |
bool | Wenn diese Option aktiviert ist, kann die OCR-Ausgabe als durchsuchbares PDF mit einer unsichtbaren Textebene gespeichert werden. |
RenderHocr |
bool | Wenn diese Option aktiviert ist, enthält die OCR-Ausgabe hOCR-Daten zur weiteren Verarbeitung oder zum Export. |
TesseractVariables |
Dictionary<string, object> | Bietet direkten Zugriff auf Low-Level-Konfigurationsvariablen von Tesseract für eine detaillierte Steuerung. |
Das TesseractVariables-Wörterbuch geht noch einen Schritt weiter und stellt Hunderte von zugrunde liegenden Tesseract-Engine-Parametern für Fälle bereit, in denen die übergeordneten Eigenschaften nicht ausreichen.
Die folgenden Beispiele veranschaulichen die einzelnen Eigenschaftsgruppen, beginnend mit der Whitelist für Zeichen.
Einrichten einer Zeichen-Whitelist für Kfz-Kennzeichen
Ein häufiger Anwendungsfall für WhiteListCharacters ist die Beschränkung der OCR-Ausgabe auf die Zeichen, die auf einem Nummernschild vorkommen können: Großbuchstaben, Ziffern, Bindestriche und Leerzeichen. Dadurch werden Störsignale eliminiert und die Genauigkeit verbessert, indem die Engine angewiesen wird, alles zu ignorieren, was außerhalb des erwarteten Zeichensatzes liegt.
Eingabe
Der folgende Fahrzeugzulassungsdatensatz enthält eine Mischung aus Großbuchstaben, Kleinbuchstaben und Sonderzeichen (@, $, #, |, *), sowie die Zeichensetzung.
BlackListCharacters ergänzt die Whitelist, indem es bekannte Störsymbole wie , and*`.
:path=/static-assets/ocr/content-code-examples/how-to/ocr-configurations-for-advanced-reading.cs
using IronOcr;
// Initialize the Tesseract OCR engine
IronTesseract ocr = new IronTesseract();
ocr.Configuration = new TesseractConfiguration
{
// Whitelist only characters that appear on license plates
WhiteListCharacters = "ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789- ",
// Blacklist common noise characters
BlackListCharacters = "`~@#$%&*",
};
var ocrInput = new OcrInput();
// Load the input image
ocrInput.LoadImage("advanced-input.png");
// Perform OCR on the input image with ReadPhoto method
var results = ocr.ReadPhoto(ocrInput);
// Print the filtered text result to the console
Console.WriteLine(results.Text);
Imports IronOcr
' Initialize the Tesseract OCR engine
Dim ocr As New IronTesseract()
ocr.Configuration = New TesseractConfiguration With {
' Whitelist only characters that appear on license plates
.WhiteListCharacters = "ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789- ",
' Blacklist common noise characters
.BlackListCharacters = "`~@#$%&*"
}
Dim ocrInput As New OcrInput()
' Load the input image
ocrInput.LoadImage("advanced-input.png")
' Perform OCR on the input image with ReadPhoto method
Dim results = ocr.ReadPhoto(ocrInput)
' Print the filtered text result to the console
Console.WriteLine(results.Text)
Ausgabe
Die Whitelist-Filterung ist in den Ergebnissen deutlich erkennbar:
- "Plate: ABC-1234" wird zu "P ABC-1234". Das kleingeschriebene Wort "late:" wird weggelassen, während die Kennzeichen-Nummer exakt beibehalten wird.
- "VIN: 1HGBH41JXMN109186" wird zu "VIN 1HGBH41JXMN109186". Der Doppelpunkt wird weggelassen, aber das großgeschriebene VIN und die vollständige Nummer bleiben erhalten.
- "Owner: john.doe@email.com" wird zu "O". Die vollständig in Kleinbuchstaben geschriebene E-Mail-Adresse und die Satzzeichen werden entfernt.
- "Region: CA-90210 | "Zone #5" wird zu "R CA-90210 Z 5". Das Pipe-Zeichen (
|) and hash (#) werden entfernt, während Großbuchstaben und Zahlen erhalten bleiben. - "Gebühr: 125,00 $ + MwSt*" wird zu "F 12500". Das Dollarzeichen, der Dezimalpunkt, das Pluszeichen und das kleingeschriebene "tax" werden entfernt.
- "Ref: ~record_v2^final" wird zu "R 2". Die Tilde (
~), der Unterstrich, das Caret (^) und alle Kleinbuchstaben werden entfernt.
Der gleiche Ansatz wie bei WhiteListCharacters und BlackListCharacters funktioniert für jede Art von Dokument, nicht nur für Nummernschilder. Der nächste Abschnitt zeigt, wie ein Reader erweitert werden kann, um Barcodes und Tabellenstrukturen im selben Durchlauf zu erkennen.
Konfiguration des Lesens von BarCodes und Datentabellen
IronOCR kann neben Text auch BarCodes und strukturierte Tabellen in Dokumenten erkennen. Diese Funktionen werden über TesseractConfiguration gesteuert:
IronTesseract ocr = new IronTesseract();
ocr.Co/nfiguration = new TesseractConfiguration
{
// Enable barcode detection within documents
ReadBarCodes = true,
// Enable table structure detection
ReadDataTables = true,
};
IronTesseract ocr = new IronTesseract();
ocr.Co/nfiguration = new TesseractConfiguration
{
// Enable barcode detection within documents
ReadBarCodes = true,
// Enable table structure detection
ReadDataTables = true,
};
Dim ocr As New IronTesseract()
ocr.Configuration = New TesseractConfiguration With {
.ReadBarCodes = True,
.ReadDataTables = True
}
- ReadBarCodes: Bei der Einstellung
truescannt IronOCR das Dokument zusätzlich zum Text auch nach BarCodes. Setzen Sie den Wert auffalse, um die BarCode-Erkennung zu überspringen und die Verarbeitung zu beschleunigen, wenn keine BarCodes erwartet werden. - ReadDataTables: Bei der Einstellung
trueversucht Tesseract, Tabellenstrukturen im Dokument zu erkennen und beizubehalten. Dies ist nützlich für Rechnungen, Berichte und andere tabellarische Dokumente.
Diese Optionen können mit WhiteListCharacters und BlackListCharacters kombiniert werden, um präzise zu steuern, was aus komplexen Dokumenten extrahiert wird.
Während Filterung und Erkennung steuern, was extrahiert wird, ist die Interpretation des Layouts ein separates Thema. Im nächsten Abschnitt wird erläutert, wie man den richtigen PageSegmentationMode für den Dokumenttyp auswählt.
Steuerung des Seitensegmentierungsmodus
PageSegmentationMode teilt Tesseract mit, wie das Eingabebild vor der Erkennung segmentiert werden soll. Die Wahl des falschen Modus für ein bestimmtes Layout führt dazu, dass die Engine Text falsch interpretiert oder ganz überspringt.
| Modus | Anwendungsfall |
|---|---|
AutoOsd |
Automatische Layoutanalyse mit Erkennung von Ausrichtung und Schriftart |
Auto |
Automatische Layoutanalyse ohne OSD (Standard) |
SingleColumn |
Es wird davon ausgegangen, dass das Bild aus einer einzigen Textspalte besteht |
SingleBlock |
Es wird davon ausgegangen, dass das Bild aus einem einzigen einheitlichen Textblock besteht |
SingleLine |
Es wird davon ausgegangen, dass das Bild aus einer einzigen Textzeile besteht |
SparseText |
Findet so viel Text wie möglich in beliebiger Reihenfolge |
Bei einem Label oder Banner, das nur eine einzige Zeile enthält, macht SingleLine eine Analyse mehrerer Blöcke überflüssig und verbessert sowohl die Geschwindigkeit als auch die Genauigkeit.
Eingabe
single-line-label.png ist ein schmales Versandetikett mit genau einer Zeile fettgedrucktem Courier-Text: SHIPPING LABEL: TRK-2024-XR9-001.
IronTesseract ocr = new IronTesseract();
ocr.Co/nfiguration = new TesseractConfiguration
{
PageSegmentationMode = TesseractPageSegmentationMode.SingleLine,
};
using OcrInput input = new OcrInput();
input.LoadImage("single-line-label.png");
OcrResult result = ocr.Read(input);
Console.WriteLine(result.Text);
IronTesseract ocr = new IronTesseract();
ocr.Co/nfiguration = new TesseractConfiguration
{
PageSegmentationMode = TesseractPageSegmentationMode.SingleLine,
};
using OcrInput input = new OcrInput();
input.LoadImage("single-line-label.png");
OcrResult result = ocr.Read(input);
Console.WriteLine(result.Text);
Imports IronOcr
Dim ocr As New IronTesseract()
ocr.Configuration = New TesseractConfiguration With {
.PageSegmentationMode = TesseractPageSegmentationMode.SingleLine
}
Using input As New OcrInput()
input.LoadImage("single-line-label.png")
Dim result As OcrResult = ocr.Read(input)
Console.WriteLine(result.Text)
End Using
Bei einer gescannten Seite mit unregelmäßiger Textplatzierung stellt SparseText mehr Inhalt wieder her als Auto.
Eingabe
receipt-scan.png ist ein Thermobeleg von Corner Market mit vier Einzelposten (Kaffee, Muffin, Saft, Müsliriegel), einer gestrichelten Trennlinie, Zwischensumme, Steuer und Gesamtsumme. Bei dieser Art von Layout übersieht die Segmentierung in festen Blöcken Einträge an verschiedenen horizontalen Positionen.
IronTesseract ocr = new IronTesseract();
ocr.Co/nfiguration = new TesseractConfiguration
{
PageSegmentationMode = TesseractPageSegmentationMode.SparseText,
};
using OcrInput input = new OcrInput();
input.LoadImage("receipt-scan.png");
OcrResult result = ocr.Read(input);
Console.WriteLine(result.Text);
IronTesseract ocr = new IronTesseract();
ocr.Co/nfiguration = new TesseractConfiguration
{
PageSegmentationMode = TesseractPageSegmentationMode.SparseText,
};
using OcrInput input = new OcrInput();
input.LoadImage("receipt-scan.png");
OcrResult result = ocr.Read(input);
Console.WriteLine(result.Text);
Imports IronOcr
Dim ocr As New IronTesseract()
ocr.Configuration = New TesseractConfiguration With {
.PageSegmentationMode = TesseractPageSegmentationMode.SparseText
}
Using input As New OcrInput()
input.LoadImage("receipt-scan.png")
Dim result As OcrResult = ocr.Read(input)
Console.WriteLine(result.Text)
End Using
Nachdem die Layout-Segmentierung an den Dokumenttyp angepasst wurde, besteht der nächste Schritt darin, das Ausgabeformat für die nachgelagerte Verarbeitung zu steuern.
Erstellung durchsuchbarer PDFs und hOCR-Ausgabe
RenderSearchablePdf und RenderHocr steuern die Ausgabeformate, die IronOCR neben dem Ergebnis im Klartext erzeugt.
RenderSearchablePdf fügt eine unsichtbare Textebene über das Originalbild ein und erzeugt so eine PDF-Datei, in der Benutzer Text suchen und kopieren können, während das gescannte Bild sichtbar bleibt. Dies ist das Standardausgabeformat für Dokumentenarchivierungs-Workflows.
Eingabe
scanned-document.pdf ist ein einseitiges Geschäftsschreiben von IronOCR Solutions Ltd. (datiert auf den 15. März 2024, Referenz DOC-2024-OCR-0315). Das Ergebnis wird als searchable-output.pdf gespeichert.
IronTesseract ocr = new IronTesseract();
ocr.Co/nfiguration = new TesseractConfiguration
{
RenderSearchablePdf = true,
};
using OcrInput input = new OcrInput();
input.LoadPdf("scanned-document.pdf");
OcrResult result = ocr.Read(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
IronTesseract ocr = new IronTesseract();
ocr.Co/nfiguration = new TesseractConfiguration
{
RenderSearchablePdf = true,
};
using OcrInput input = new OcrInput();
input.LoadPdf("scanned-document.pdf");
OcrResult result = ocr.Read(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
Imports IronTesseract
Dim ocr As New IronTesseract()
ocr.Configuration = New TesseractConfiguration With {
.RenderSearchablePdf = True
}
Using input As New OcrInput()
input.LoadPdf("scanned-document.pdf")
Dim result As OcrResult = ocr.Read(input)
result.SaveAsSearchablePdf("searchable-output.pdf")
End Using
Ausgabe
Das Ergebnis ist eine PDF-Datei, die identisch mit der Eingabe aussieht, jedoch eine versteckte Textebene enthält. Öffnen Sie searchable-output.pdf und verwenden Sie Strg+F, um zu überprüfen, ob der eingebettete Text durchsuchbar und kopierbar ist.
RenderHocr erzeugt ein hOCR-Dokument, eine HTML-Datei, die den Textinhalt zusammen mit den Koordinaten der Begrenzungsrahmen für jedes WORD kodiert. Dies ist nützlich, wenn nachgelagerte Tools eine präzise Wortpositionierung benötigen, beispielsweise Redaktions-Engines oder Dokumentlayout-Analysen.
Eingabe
document-page.png ist eine Dokumentseite mit der Überschrift "Quartalsübersicht Q1 2024" und zwei Absätzen mit Finanzdaten zu Umsatz, Betriebskosten und Wachstumstreibern. Das Ergebnis wird als output.html gespeichert.
IronTesseract ocr = new IronTesseract();
ocr.Co/nfiguration = new TesseractConfiguration
{
RenderHocr = true,
};
using OcrInput input = new OcrInput();
input.LoadImage("document-page.png");
OcrResult result = ocr.Read(input);
result.SaveAsHocrFile("output.html");
IronTesseract ocr = new IronTesseract();
ocr.Co/nfiguration = new TesseractConfiguration
{
RenderHocr = true,
};
using OcrInput input = new OcrInput();
input.LoadImage("document-page.png");
OcrResult result = ocr.Read(input);
result.SaveAsHocrFile("output.html");
Imports IronTesseract
Dim ocr As New IronTesseract()
ocr.Configuration = New TesseractConfiguration With {
.RenderHocr = True
}
Using input As New OcrInput()
input.LoadImage("document-page.png")
Dim result As OcrResult = ocr.Read(input)
result.SaveAsHocrFile("output.html")
End Using
Ausgabe
output.html kodiert jedes erkannte WORD mit den Koordinaten seines Begrenzungsrahmens. Öffnen Sie die Datei in einem Browser, um die hOCR-Struktur zu überprüfen, oder leiten Sie sie an ein nachgelagertes Tool zur Layoutanalyse oder Bearbeitung weiter.
Beide Flags können gleichzeitig aktiviert werden, wenn Sie alle drei Ausgabeformate (Klartext, durchsuchbares PDF und hOCR) aus einem einzigen Leseaufruf benötigen.
Diese Ausgabeflags funktionieren unabhängig von der gelesenen Sprache, einschließlich nicht-lateinischer Schriften. Der nächste Abschnitt zeigt, wie man Zeichenfilterung auf japanischen Text anwendet.
Unicode-Zeichenfilterung für internationale Dokumente
Bei internationalen Dokumenten in Chinesisch, Japanisch oder Koreanisch funktionieren die Eigenschaften WhiteListCharacters und BlackListCharacters mit Unicode-Zeichen. Dadurch können Sie die Ausgabe auf bestimmte Skripte beschränken, beispielsweise nur Hiragana und Katakana für Japanisch.
Eingabe
Das Dokument enthält einen Titel (テスト), einen japanischen Satz, der Hiragana und Katakana mit Varianten der Stimmzeichen (プ, で) mischt, eine Preiszeile mit auf der Sperrliste stehenden Störsymbolen (★, ■) und Kanji (価格) sowie eine Notizzeile mit einem weiteren Symbol aus der Sperrliste (§), weiteren Kanji (購入), zusätzlichen Varianten der Stimmzeichen (プ, デ) und Basis-Katakana (メモ, ール). Die Whitelist lässt nur Basis-Hiragana, Basis-Katakana, Ziffern und gängige japanische Satzzeichen durch; Die drei Lärmsymbole stehen ausdrücklich auf der Sperrliste.
Die Unicode-Zeichenbereiche für Hiragana und Katakana werden als String-Literale in WhiteListCharacters übergeben, wobei die in BlackListCharacters aufgeführten Symbole als Störsignale dienen.
:path=/static-assets/ocr/content-code-examples/how-to/ocr-configurations-for-advanced-reading-jp.cs
using IronOcr;
using System.IO;
IronTesseract ocr = new IronTesseract();
ocr.Configuration = new TesseractConfiguration
{
// Whitelist only Hiragana, Katakana, numbers, and common Japanese punctuation
WhiteListCharacters = "あいうえおかきくけこさしすせそたちつてとなにぬねのはひふへほまみむめもやゆよらりるれろわをん" +
"アイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワヲン" +
"0123456789、。?!()¥ー",
// Blacklist common noise/symbols you want to ignore
BlackListCharacters = "★■§",
};
var ocrInput = new OcrInput();
// Load Japanese input image
ocrInput.LoadImage("jp.png");
// Perform OCR on the input image with ReadPhoto method
var results = ocr.ReadPhoto(ocrInput);
// Write the text result directly to a file named "output.txt"
File.WriteAllText("output.txt", results.Text);
// You can add this line to confirm the file was saved:
Console.WriteLine("OCR results saved to output.txt");
Imports IronOcr
Imports System.IO
Dim ocr As New IronTesseract()
ocr.Configuration = New TesseractConfiguration With {
.WhiteListCharacters = "あいうえおかきくけこさしすせそたちつてとなにぬねのはひふへほまみむめもやゆよらりるれろわをん" &
"アイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワヲン" &
"0123456789、。?!()¥ー",
.BlackListCharacters = "★■§"
}
Dim ocrInput As New OcrInput()
' Load Japanese input image
ocrInput.LoadImage("jp.png")
' Perform OCR on the input image with ReadPhoto method
Dim results = ocr.ReadPhoto(ocrInput)
' Write the text result directly to a file named "output.txt"
File.WriteAllText("output.txt", results.Text)
' You can add this line to confirm the file was saved:
Console.WriteLine("OCR results saved to output.txt")
Ausgabe
Die vollständige gefilterte Ausgabe ist als Textdatei verfügbar: jp-output.txt.
Da die Whitelist nur Basiszeichen von Hiragana und Katakana enthält, werden abgeleitete Varianten mit Stimmzeichen wie プ (pu) und デ (de) weggelassen. Kanji-Zeichen wie 価格 (Preis) und 購入 (Kauf) sind ebenfalls ausgeschlossen, da sie nicht zum zulässigen Zeichensatz gehören. Symbole auf der Blacklist wie ★, ■ und § werden unabhängig von der Whitelist aktiv entfernt.
Wie geht es weiter?
Nachdem Sie nun wissen, wie Sie IronOCR für anspruchsvolle Leseszenarien konfigurieren, entdecken Sie:
- Lesen bestimmter Dokumenttypen wie Reisepässe und Kfz-Kennzeichen
- Das Lesen von BarCodes und QR-Codes als eigenständiger OCR-Anwendungsfall
- Exportieren von hOCR- und durchsuchbaren PDF-Dateien aus den verarbeiteten Ergebnissen
Denken Sie daran, für den produktiven Einsatz eine Lizenz zu erwerben, um Wasserzeichen zu entfernen und den vollen Funktionsumfang nutzen zu können.
Häufig gestellte Fragen
Was ist TesseractConfiguration in IronOCR?
TesseractConfiguration in IronOCR ermöglicht es Benutzern, die OCR-Einstellungen anzupassen und so erweiterte Lesefunktionen wie Zeichen-Whitelists, Barcode-Lesen und mehrsprachige Unterstützung zu aktivieren.
Wie kann ich in IronOCR eine Zeichen-Whitelist einrichten?
In IronOCR können Sie mit TesseractConfiguration eine Zeichen-Whitelist einrichten, mit der Sie festlegen können, welche Zeichen die OCR-Engine erkennen soll. Dies ist nützlich für Aufgaben wie das Lesen von Kfz-Kennzeichen.
Kann IronOCR Barcodes und Datentabellen lesen?
Ja, IronOCR kann so konfiguriert werden, dass es Barcodes und Datentabellen liest, indem bestimmte Einstellungen in den TesseractConfiguration-Eigenschaften für eine präzise OCR-Datenextraktion angepasst werden.
Unterstützt IronOCR internationale Sprachen wie Chinesisch, Japanisch und Koreanisch?
IronOCR unterstützt internationale Sprachen, darunter Chinesisch, Japanisch und Koreanisch, durch seine mehrsprachigen TesseractConfiguration-Optionen.
Welche Vorteile bietet die Verwendung erweiterter OCR-Konfigurationen in IronOCR?
Durch die Nutzung fortschrittlicher OCR-Konfigurationen in IronOCR wird eine genauere und effizientere Texterkennung ermöglicht, wodurch spezialisierte Aufgaben wie die sprachspezifische Texterkennung und die Extraktion strukturierter Daten unterstützt werden.
Lässt sich IronOCR für spezifische OCR-Aufgaben optimieren?
Ja, IronOCR kann für spezifische OCR-Aufgaben optimiert werden, indem Einstellungen wie Zeichen-Whitelists konfiguriert und die Barcode- oder Tabellenerkennung aktiviert werden, wodurch die Leistung für die jeweiligen Anwendungen verbessert wird.
Wie aktiviere ich die Mehrsprachigkeitsunterstützung in IronOCR?
Um die Mehrsprachigkeit in IronOCR zu aktivieren, können Sie die Spracheinstellungen in der TesseractConfiguration anpassen, sodass die OCR-Engine Texte in mehreren Sprachen erkennen kann.
Was sind Zeichen-Whitelists und wie werden sie in IronOCR verwendet?
Zeichen-Whitelists in IronOCR sind Listen spezifischer Zeichen, die die OCR-Engine erkennen soll. Sie eignen sich ideal für gezielte Aufgaben wie das Lesen von Ziffern oder bestimmten Textmustern.
Kann IronOCR zum Lesen strukturierter Datenformate verwendet werden?
Ja, IronOCR kann so konfiguriert werden, dass es strukturierte Datenformate wie Barcodes und Tabellen lesen und verarbeiten kann und bietet somit vielseitige OCR-Funktionen für verschiedene Datenextraktionsanforderungen.
Welche Konfigurationen bietet IronOCR für die erweiterte Texterkennung?
IronOCR bietet Konfigurationen wie Zeichen-Whitelists, Mehrsprachigkeitsunterstützung und Barcode-Erkennung, um die erweiterten Texterkennungsfunktionen an spezifische Anforderungen anzupassen.

