如何使用多種語言與Tesseract

This article was translated from English: Does it need improvement?
Translated
View the article in English

奇佩戈·卡林达

在光學字符識別的領域 (光學字符識別) 科技,IronOCR 是一款備受推崇的工具,以其從各種語言和文字中提取文本的能力而著稱。我們使用Tesseract引擎提供可靠且易於使用的OCR工具。

在本文中,我們將說明IronOCR如何依靠Tesseract有效處理多種語言的文本。無論您是尋找可靠多語種OCR解決方案的經驗豐富的開發人員,還是僅僅對其工作原理感到好奇,本文將幫助您了解IronOCR及其Tesseract引擎,揭示這款珍貴工具的功能。


C# NuGet 程式庫用于 OCR

安裝與 NuGet

Install-Package IronOcr
Java PDF JAR

下載 DLL

下載DLL

手動安裝到您的項目中

C# NuGet 程式庫用于 OCR

安裝與 NuGet

Install-Package IronOcr
Java PDF JAR

下載 DLL

下載DLL

手動安裝到您的項目中

立即開始在您的專案中使用IronPDF,並享受免費試用。

第一步:
green arrow pointer

查看 IronOCRNuget 快速安裝和部署。已被下載超過800萬次,它正用C#改變OCR。

C# NuGet 程式庫用于 OCR nuget.org/packages/IronOcr/
Install-Package IronOcr

請考慮安裝 IronOCR DLL 直接下載並手動安裝到您的專案或GAC表單: IronOcr.zip

手動安裝到您的項目中

下載DLL

多語言 PDF 示例

IronOCR 提供大約 125 種語言包,然而默認情況下只安裝了英語,其餘可以從 NuGet 下載。您可以查看所有可用的 語言包在此。在接下來的例子中,我將展示如何使用IronOCR從PDF文件中提取多種語言文本的程式碼。

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);

// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);

// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)

' Add PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)

' Output extracted text to console
Console.WriteLine(result.Text)
VB   C#

您可以使用 AddSecondaryLanguage 方法添加任意數量的輔助語言。然而,請注意此操作可能會影響速度和性能。語言的優先級取決於其添加的順序,最先添加的具有較高的優先級。

讀取多語言圖片範例

預設的主要語言設置為英語。要更改主要語言,請將Language屬性設置為所需的語言。之後,你還可以添加次要語言。

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);

// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);

// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese)

' Add image
Dim imageInput = New OcrImageInput("example.png")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(imageInput)

' Output extracted text to console
Console.WriteLine(result.Text)
VB   C#

如果你做到這一點,你可以期待以下結果。

俄文和日文

結論

簡而言之,IronOCR 由強大的 Tesseract 引擎支援,在從多語言文件中提取文本方面表現出色。它是處理多語言文本複雜性的不可或缺的工具,為開發人員和好奇的心靈提供了一個多功能的解決方案。無論您是在處理具有多語言文本的 PDF 檔案,還是在圖片中處理多語言內容,IronOCR 都可以簡化識別和提取多語言文本的任務。

Chipego

軟體工程師

Chipego 擁有天生的傾聽技能,這幫助他理解客戶問題,並提供智能解決方案。他在獲得信息技術理學學士學位後,于 2023 年加入 Iron Software 團隊。IronPDF 和 IronOCR 是 Chipego 專注的兩個產品,但隨著他每天找到新的方法來支持客戶,他對所有產品的了解也在不斷增長。他喜歡在 Iron Software 的協作生活,公司內的團隊成員從各自不同的經歷中共同努力,創造出有效的創新解決方案。當 Chipego 離開辦公桌時,他常常享受讀好書或踢足球的樂趣。