如何使用多種語言與Tesseract
在光學字符識別的領域 (光學字符識別) 科技,IronOCR 是一款備受推崇的工具,以其從各種語言和文字中提取文本的能力而著稱。我們使用Tesseract引擎提供可靠且易於使用的OCR工具。
在本文中,我們將說明IronOCR如何依靠Tesseract有效處理多種語言的文本。無論您是尋找可靠多語種OCR解決方案的經驗豐富的開發人員,還是僅僅對其工作原理感到好奇,本文將幫助您了解IronOCR及其Tesseract引擎,揭示這款珍貴工具的功能。
如何使用多種語言與Tesseract
- 下載可讀取多種語言的 C# 函式庫
- 準備 PDF 文件和圖像以便閱讀
- 通過 NuGet 安裝額外的語言包
- 使用
添加次要語言
啟用所需語言的方法 - 設置 語言 更改默認語言的屬性
立即開始在您的專案中使用IronPDF,並享受免費試用。
查看 IronOCR 上 Nuget 快速安裝和部署。已被下載超過800萬次,它正用C#改變OCR。
Install-Package IronOcr
請考慮安裝 IronOCR DLL 直接下載並手動安裝到您的專案或GAC表單: IronOcr.zip
手動安裝到您的項目中
下載DLL多語言 PDF 示例
IronOCR 提供大約 125 種語言包,然而默認情況下只安裝了英語,其餘可以從 NuGet 下載。您可以查看所有可用的 語言包在此。在接下來的例子中,我將展示如何使用IronOCR從PDF文件中提取多種語言文本的程式碼。
:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);
// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);
// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)
' Add PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)
' Output extracted text to console
Console.WriteLine(result.Text)
您可以使用 AddSecondaryLanguage
方法添加任意數量的輔助語言。然而,請注意此操作可能會影響速度和性能。語言的優先級取決於其添加的順序,最先添加的具有較高的優先級。
讀取多語言圖片範例
預設的主要語言設置為英語。要更改主要語言,請將Language屬性設置為所需的語言。之後,你還可以添加次要語言。
:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
using IronOcr;
using System;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);
// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);
// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese)
' Add image
Dim imageInput = New OcrImageInput("example.png")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(imageInput)
' Output extracted text to console
Console.WriteLine(result.Text)
如果你做到這一點,你可以期待以下結果。
結論
簡而言之,IronOCR 由強大的 Tesseract 引擎支援,在從多語言文件中提取文本方面表現出色。它是處理多語言文本複雜性的不可或缺的工具,為開發人員和好奇的心靈提供了一個多功能的解決方案。無論您是在處理具有多語言文本的 PDF 檔案,還是在圖片中處理多語言內容,IronOCR 都可以簡化識別和提取多語言文本的任務。