Tesseract详细配置

VB C#

using IronOcr;
using System;

var ocrTesseract = new IronTesseract()
{
    Language = OcrLanguage.EnglishBest,
    Configuration = new TesseractConfiguration()
    {
        ReadBarCodes = false,
        RenderHocr = true,
        BlackListCharacters = "`ë|^",
        PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd,
    }
};

using var ocrInput = new OcrInput();
ocrInput.LoadImage(@"images\image.png");
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);

Install-Package IronOcr

Tesseract详细配置

对于 OCR 而言，能够灵活地选择和提取文档中的文本至关重要。由于执行 OCR 的成本很高，因此需要能够控制特定文档的性能和使用方法，以确保使用 OCR 的应用程序具有可扩展性和高效性。

IronTesseract 为开发者提供了不同的属性和选项，供他们进行调整。例如，如果您想要将某些字符列入黑名单，或者还想读取文档中的条形码，甚至指定 OCR 引擎如何读取页面以扫描潜在的文本块，所有这些以及更多功能都可以使用 IronTesseract 类来实现。

## 使用 Tesseract 5 进行 IronOCR 测量的 5 个步骤指南

`var ocrTesseract = new IronTesseract();`
`ocrTesseract.Language = OcrLanguage.EnglishBest;`
`ocrTesseract.Configuration.ReadBarCodes = false;`
`ocrTesseract.Configuration.BlackListCharacters = "`ë|^";`
ocrTesseract.Configuration.TesseractVariables["tessedit_parallelize"]=false;/代码


初始化 IronTesseract 类之后，有一些重要的选项可以立即使用，我们想要对其进行修改。 首先要配置的属性是 Language。 默认语言为英语； 但是，IronTesseract 最多支持 125 种语言，并且使用 UseMultipleLanguages 方法甚至可以支持多种语言。 更多详情请参考这里。
我们要配置的第二个属性是 TesseractConfiguration 类。 通过此类，我们可以修改 Tesseract 引擎扫描文档中潜在文本块的方式。

首先，我们通过将语言分配给 OcrLanguage.EnglishBest 来修改 Tesseract 引擎的语言。 该变体结合了 LSTM 和 OEM，它们都是使用 OCR 的形状识别策略； 结合这两种策略可以使 OCR 产生更准确的结果。
之后，我们将 ReadBarCodes 设置为 false，以避免在 OCR 过程中读取条形码。

我们还可以通过将文档中的某些字符列入黑名单，进一步自定义和指定要提取的字符； 在这个例子中，我们将某些字符列入黑名单，以避免提取包含反引号、重音符号或插入符号的文本。 最后，我们将 TesseractVariables["tessedit_parallelize"] 设置为 false，暂时禁用并行处理。 最后这个功能非常强大，因为它直接与 Tesseract 引擎交互。以下是 TesseractVariables 的完整列表，开发者可以通过这些选项进一步自定义 Tesseract 引擎在执行 OCR 时的行为。
探索更多 IronTesseract 配置选项


					
    
        
            
                准备开始了吗？
                
                     Nuget 下载 5,556,263 | 版本: 2026.3 刚刚发布
            

            
            
                
                                        
                        免费试用                    
                    
                    
                        
                            
                            免费 NuGet 下载
                        
                        总下载量：5,556,263
                    
                
                

                
                    
                        查看许可证
                    
                
            

        
    



    
        
        
            

            
                
                    还在滚动吗？
                    想快速获得证据？  PM > Install-Package IronOcr 
 运行示例  观看您的图像变成可搜索文本。
                
                
                    
                        
                            
                                
                                免费 NuGet 下载
                            
                            总下载量：5,556,263
                        
                    

                    
                        
                            查看许可证