如何使用多種語言與Tesseract

This article was translated from English: Does it need improvement?
Translated
View the article in English

奇佩戈·卡林达

在光學字符識別的領域(光學字符識別)技術方面,IronOCR 是一個眾所周知的工具,以其從各種語言和文字中提取文字的能力而聞名。我們使用 Tesseract Engine 來提供一個可靠且易於使用的 OCR 工具。

在這篇文章中,我們將展示 IronOCR 如何透過 Tesseract,有效處理多種語言的文字。 無論您是尋找可靠的多語言OCR解決方案的經驗豐富開發者,還是僅僅對其運作方式感到好奇,本文將幫助您了解IronOCR及其Tesseract引擎,揭示這一寶貴工具的能力。

開始使用IronOCR

立即在您的專案中使用IronOCR,並享受免費試用。

第一步:
green arrow pointer



讀取多語言PDF範例

IronOCR 提供大約 125 種語言包,但預設僅安裝英語,其他語言包可以從 NuGet 下載。 您可以查看所有可用的語言包在此。.

在接下來的示例中,我將向您展示在IronOCR中使用多種語言從PDF文件中提取文本的代碼。

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);

// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);

// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)

' Add PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)

' Output extracted text to console
Console.WriteLine(result.Text)
VB   C#

您可以使用 AddSecondaryLanguage 方法添加任意數量的次要語言。 但請注意,這項新增可能會影響速度和性能。 語言的優先順序取決於添加的順序,首先添加的具有更高的優先權。

讀取多語言圖片範例

主要語言預設為英文。 要更改主要語言,請將語言屬性設置為所需的語言。 之後,您也可以添加其他語言。

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);

// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);

// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese)

' Add image
Dim imageInput = New OcrImageInput("example.png")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(imageInput)

' Output extracted text to console
Console.WriteLine(result.Text)
VB   C#

如果您做得正確,可以期待以下的結果。

俄文和日文

結論

简而言之,由强大的Tesseract引擎支持的IronOCR擅长从多种语言的文件中提取文本。 這是一個處理多語言文本複雜性不可或缺的工具,為開發者和好奇心旺盛的人提供了多功能的解決方案。 无论您是在处理包含多种语言文字的PDF文件,还是在处理图像中的多语言内容,IronOCR都简化了识别和提取多种语言文本的任务。

Chipego related to 結論

Chipego

軟體工程師

Chipego 擁有天生的傾聽技能,這幫助他理解客戶問題,並提供智能解決方案。他在獲得信息技術理學學士學位後,于 2023 年加入 Iron Software 團隊。IronPDF 和 IronOCR 是 Chipego 專注的兩個產品,但隨著他每天找到新的方法來支持客戶,他對所有產品的了解也在不斷增長。他喜歡在 Iron Software 的協作生活,公司內的團隊成員從各自不同的經歷中共同努力,創造出有效的創新解決方案。當 Chipego 離開辦公桌時,他常常享受讀好書或踢足球的樂趣。