跳至頁尾內容

配置和語言

微調 OCR 引擎以獲得完美效果。對效能和準確性進行精細控制,並開箱即用地支援 125 多種語言。

Icon Main related to 配置和語言
OCR詳細配置

1

常規 OCR 配置

透過對數十個參數進行精細控制,可以對核心 Tesseract 引擎進行微調。這為希望針對特定文件類型、語言或品質挑戰優化效能的高級用戶提供了深度自訂功能。

學習如何使用: C# Tesseract OCR 配置變數
IronTesseract ocr = new IronTesseract
{
    Configuration = new TesseractConfiguration
    {
        ReadBarCodes = false,
        RenderHocr = true,
        TesseractVariables = null,
        WhiteListCharacters = null,
        BlackListCharacters = "`ë|^",
    },
    MultiThreaded = false,
    Language = OcrLanguage.English,
    EnableTesseractConsoleMessages = true, // False as default
};
C#
2

進階閱讀的 OCR 配置

了解更多關於進階 OCR 閱讀方法的 OCR 配置設定和可用語言的資訊。

using IronOcr;

IronTesseract ocr = new IronTesseract
{
    Configuration = new TesseractConfiguration
    {
        // Whitelist alphanumeric characters and common punctuation
        WhiteListCharacters = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789.,-?!$() /",
        // Blacklist uncommon characters 
        BlackListCharacters = "`ë|^",
    },

    // Languages available for advanced reading are English, Japanese, Korean, LatinAlphabet   
    Language = OcrLanguage.English
};
C#
3

快速 OCR 配置

優化 OCR 引擎以實現最高速度。透過調整設置,優先考慮效能而非絕對準確率,您可以快速處理大量文檔,尤其是在速度至關重要的場景下。

了解如何:在 .NET 中使用更快的 Tesseract OCR
C#

Icon Main related to 配置和語言
語言

1

支援125種語言的OCR識別

支援超過 125 種國際語言,準確率極高。我們的軟體包全面支援非拉丁字母(例如阿拉伯語、中文、希伯來語)以及帶有變音符號的語言。只需一行程式碼即可輕鬆新增或切換語言。

學習如何使用 Iron OCR 掌握多語言 OCR:英語和日語
using IronOcr;

var ocr = new IronTesseract();

// Set the OCR to use Chinese Simplified
ocr.Language = OcrLanguage.ChineseSimplified;
using (var input = new OcrInput())
{
    var result = ocr.Read(input);

    // Store the recognized text in a string
    string testResult = result.Text;
}
C#
2

多語言閱讀

IronOcr 能夠精確地擷取同一頁上包含多種語言的文件文字。它能自動偵測並切換指定的語言,無需對每種語言的內容進行單獨處理。

學習如何:在 Tesseract 中使用多種語言
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract()
{   // Set primary language to English
    Language = OcrLanguage.EnglishBest,
};

// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);

// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");

// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);

// Output extracted text to console
Console.WriteLine(result.Text);
C#
3

客製化語言閱讀

除了內建語言包之外,您還可以提供自己訓練的語言資料。對於包含罕見語言、特殊字體或獨特字元集的文檔,也能實現高精度辨識。

了解如何使用自訂語言文件
using IronOcr;

var ocrTesseract = new IronTesseract();
ocrTesseract.UseCustomTesseractLanguageFile("custom_tesseract_files/custom.traineddata");
using var ocrInput = new OcrInput();
ocrInput.LoadImage(@"sample.png");
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);
C#
準備好開始了嗎?
Nuget 下載 5,299,091 | 版本: 2025.12 剛剛發布