如何在 Tesseract 中使用多种语言

This article was translated from English: Does it need improvement?
Translated
View the article in English

奇佩戈-卡琳达

在光学字符识别领域 (光学字符识别) IronOCR 是一种广受赞誉的工具,以能够从各种语言和脚本中提取文本而著称。我们使用 Tesseract 引擎提供可靠易用的 OCR 工具。

在本文中,我们将介绍 IronOCR 如何借助 Tesseract 有效处理多语言文本。无论您是正在寻找可靠的多语言 OCR 解决方案的资深开发人员,还是仅仅对其工作原理感到好奇,本文都将帮助您了解 IronOCR 及其 Tesseract 引擎,并阐明这一宝贵工具的功能。


适用于OCR的C# NuGet库

安装使用 NuGet

Install-Package IronOcr
Java PDF JAR

下载 DLL

下载DLL

手动安装到你的项目中

适用于OCR的C# NuGet库

安装使用 NuGet

Install-Package IronOcr
Java PDF JAR

下载 DLL

下载DLL

手动安装到你的项目中

开始在您的项目中使用IronPDF,并立即获取免费试用。

第一步:
green arrow pointer

查看 IronOCRNuget 用于快速安装和部署。它有超过800万次下载,正在使用C#改变OCR。

适用于OCR的C# NuGet库 nuget.org/packages/IronOcr/
Install-Package IronOcr

考虑安装 IronOCR DLL 直接。下载并手动安装到您的项目或GAC表单中: IronOcr.zip

手动安装到你的项目中

下载DLL

阅读多语言 PDF 示例

IronOcr 提供了约 125 种语言包,但默认只安装了英语包,其他语言包可从 NuGet 下载。您可以查看所有可用的 语言包。.

在下面的示例中,我将向您展示在 IronOcr 中使用多种语言从 PDF 文件中提取文本的代码。

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);

// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);

// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)

' Add PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)

' Output extracted text to console
Console.WriteLine(result.Text)
VB   C#

您可以使用 AddSecondaryLanguage 方法添加任意数量的辅助语言。但请注意,这种添加可能会影响速度和性能。语言的优先级取决于添加的顺序,先添加的优先级更高。

阅读多语言图像示例

主要语言默认设置为英语。要更改主要语言,请将 Language 属性设置为所需语言。之后,还可以添加辅助语言。

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);

// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);

// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese)

' Add image
Dim imageInput = New OcrImageInput("example.png")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(imageInput)

' Output extracted text to console
Console.WriteLine(result.Text)
VB   C#

如果方法得当,你就能期待像下面这样的结果。

俄语和日语

结论

简而言之,IronOCR 在强大的 Tesseract 引擎支持下,在从多种语言文档中提取文本方面表现出色。它是处理复杂的多语言文本阅读问题不可或缺的工具,为开发人员和好奇者提供了一个多功能解决方案。无论您是处理包含各种语言文本的 PDF,还是处理图像中的多语言内容,IronOCR 都能简化识别和提取多语言文本的任务。

Chipego

软件工程师

Chipego 拥有出色的倾听技巧,这帮助他理解客户问题并提供智能解决方案。他在 2023 年加入 Iron Software 团队,此前他获得了信息技术学士学位。IronPDF 和 IronOCR 是 Chipego 主要专注的两个产品,但他对所有产品的了解每天都在增长,因为他不断找到支持客户的新方法。他喜欢 Iron Software 的合作氛围,公司各地的团队成员贡献他们丰富的经验,以提供有效的创新解决方案。当 Chipego 离开办公桌时,你经常可以发现他在看书或踢足球。