跳至页脚内容

配置和语言

微调OCR引擎以获得完美的结果。对性能和准确性进行细粒度控制,默认支持超过125种语言。

Icon Main related to 配置和语言
OCR 详细配置

1

正常 OCR 配置

对核心 Tesseract 引擎进行微调,对数十个参数进行细粒度控制。这为希望针对特定文档类型、语言或质量挑战优化性能的高级用户提供了深度定制功能。

了解如何:C# Tesseract OCR 配置变量
IronTesseract ocr = new IronTesseract
{
    Configuration = new TesseractConfiguration
    {
        ReadBarCodes = false,
        RenderHocr = true,
        TesseractVariables = null,
        WhiteListCharacters = null,
        BlackListCharacters = "`ë|^",
    },
    MultiThreaded = false,
    Language = OcrLanguage.English,
    EnableTesseractConsoleMessages = true, // False as default
};
C#
2

用于高级阅读的 OCR 配置

了解有关 OCR 配置设置和高级 OCR 阅读方法可用语言的更多信息。

using IronOcr;

IronTesseract ocr = new IronTesseract
{
    Configuration = new TesseractConfiguration
    {
        // Whitelist alphanumeric characters and common punctuation
        WhiteListCharacters = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789.,-?!$() /",
        // Blacklist uncommon characters 
        BlackListCharacters = "`ë|^",
    },

    // Languages available for advanced reading are English, Japanese, Korean, LatinAlphabet   
    Language = OcrLanguage.English
};
C#
3

快速OCR配置

优化 OCR 引擎,最大限度地提高速度。通过调整设置使性能优先于绝对准确性,您可以快速处理大量文件,因为速度是关键因素。

了解如何:为 .NET 提供更快的 Tesseract OCR
C#

Icon Main related to 配置和语言
语言

1

支持 125 种语言 OCR

实现 125 种以上国际语言的高准确性。我们的软件包包括对非拉丁脚本(如阿拉伯语、中文、希伯来语)和带变音符语言的强大支持。只需一行代码即可轻松添加或切换语言。

了解如何:使用 IronOCR:英语和日语 掌握多语言 OCR
using IronOcr;

var ocr = new IronTesseract();

// Set the OCR to use Chinese Simplified
ocr.Language = OcrLanguage.ChineseSimplified;
using (var input = new OcrInput())
{
    var result = ocr.Read(input);

    // Store the recognized text in a string
    string testResult = result.Text;
}
C#
2

多语言阅读

从同一页面包含多种语言的文档中准确提取文本。IronOcr 可自动检测并在指定语言之间切换,无需对每种语言内容进行单独处理。

了解如何:使用 Tesseract 使用多种语言
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract()
{   // Set primary language to English
    Language = OcrLanguage.EnglishBest,
};

// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);

// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");

// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);

// Output extracted text to console
Console.WriteLine(result.Text);
C#
3

定制语言阅读

通过提供您自己的训练语言数据,超越内置语言包。在使用罕见语言、专用字体或独特字符集的文档上实现高准确性。

了解如何:使用自定义语言文件
using IronOcr;

var ocrTesseract = new IronTesseract();
ocrTesseract.UseCustomTesseractLanguageFile("custom_tesseract_files/custom.traineddata");
using var ocrInput = new OcrInput();
ocrInput.LoadImage(@"sample.png");
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);
C#
准备开始了吗?
Nuget 下载 5,167,857 | Version: 2025.11 刚刚发布