如何使用多種語言與Tesseract
在光學字符識別的領域(光學字符識別)技術方面,IronOCR 是一個眾所周知的工具,以其從各種語言和文字中提取文字的能力而聞名。我們使用 Tesseract Engine 來提供一個可靠且易於使用的 OCR 工具。
在這篇文章中,我們將展示 IronOCR 如何透過 Tesseract,有效處理多種語言的文字。 無論您是尋找可靠的多語言OCR解決方案的經驗豐富開發者,還是僅僅對其運作方式感到好奇,本文將幫助您了解IronOCR及其Tesseract引擎,揭示這一寶貴工具的能力。
開始使用IronOCR
立即在您的專案中使用IronOCR,並享受免費試用。
如何使用多種語言與Tesseract
- 下載可讀取多種語言的 C# 函式庫
- 準備 PDF 文件和圖像以便閱讀
- 通過 NuGet 安裝額外的語言包
- 使用
添加次要語言
啟用所需語言的方法 - 設置 語言 更改默認語言的屬性
讀取多語言PDF範例
IronOCR 提供大約 125 種語言包,但預設僅安裝英語,其他語言包可以從 NuGet 下載。 您可以查看所有可用的語言包在此。.
在接下來的示例中,我將向您展示在IronOCR中使用多種語言從PDF文件中提取文本的代碼。
:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);
// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);
// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)
' Add PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)
' Output extracted text to console
Console.WriteLine(result.Text)
您可以使用 AddSecondaryLanguage
方法添加任意數量的次要語言。 但請注意,這項新增可能會影響速度和性能。 語言的優先順序取決於添加的順序,首先添加的具有更高的優先權。
讀取多語言圖片範例
主要語言預設為英文。 要更改主要語言,請將語言屬性設置為所需的語言。 之後,您也可以添加其他語言。
:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
using IronOcr;
using System;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);
// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);
// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese)
' Add image
Dim imageInput = New OcrImageInput("example.png")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(imageInput)
' Output extracted text to console
Console.WriteLine(result.Text)
如果您做得正確,可以期待以下的結果。
結論
简而言之,由强大的Tesseract引擎支持的IronOCR擅长从多种语言的文件中提取文本。 這是一個處理多語言文本複雜性不可或缺的工具,為開發者和好奇心旺盛的人提供了多功能的解決方案。 无论您是在处理包含多种语言文字的PDF文件,还是在处理图像中的多语言内容,IronOCR都简化了识别和提取多种语言文本的任务。