使用 C# 和 .NET 實作漢字簡體字母 OCR
This article was translated from English: Does it need improvement?
TranslatedView the article in English
IronOCR 是一個 C# 軟體元件,允許 .NET 程式設計師從圖像和 PDF 文件中讀取 126 種語言的文本,包括簡體漢字。
它是 Tesseract 的一個高級分支,專為 .NET 開發人員構建,在速度和準確性方面通常優於其他 Tesseract 引擎。
IronOcr.Languages.Han 的內容
此軟體包包含 400 種適用於 .NET 的 OCR 語言:
- 漢字簡體字母
- 漢簡體字母最佳
- HanSimplifiedAlphabetFast
- 漢字簡體垂直字母
- 漢字簡體垂直字母最佳
- 漢字簡體豎式字母表快速
- 漢字
- 漢字傳統字母最佳
- HanTraditionalAlphabetFast
- 漢字豎立
- 漢字傳統垂直字母最佳
- 漢字傳統垂直字母快速
下載
漢字簡體字母語言包 [Samhan]
安裝
我們首先需要做的是將我們的漢字簡體字母OCR 套件安裝到您的 .NET 專案中。
在套件管理員控制台執行下列指令:
Install-Package IronOCR.Languages.Han
程式碼範例
這段 C# 程式碼範例從圖像或 PDF 文件中讀取簡體漢字文字。
// Reference the IronOcr library
using IronOcr;
class Program
{
static void Main()
{
// Create an IronTesseract OCR engine
var Ocr = new IronTesseract();
// Load the Han language for OCR processing
Ocr.Language = OcrLanguage.Han;
// Using a 'using' statement for resource management
using (var Input = new OcrInput(@"images\Han.png"))
{
// Process the image to extract text
var Result = Ocr.Read(Input);
// Retrieve and display the extracted text
string AllText = Result.Text;
System.Console.WriteLine(AllText);
}
}
}// Reference the IronOcr library
using IronOcr;
class Program
{
static void Main()
{
// Create an IronTesseract OCR engine
var Ocr = new IronTesseract();
// Load the Han language for OCR processing
Ocr.Language = OcrLanguage.Han;
// Using a 'using' statement for resource management
using (var Input = new OcrInput(@"images\Han.png"))
{
// Process the image to extract text
var Result = Ocr.Read(Input);
// Retrieve and display the extracted text
string AllText = Result.Text;
System.Console.WriteLine(AllText);
}
}
}$vbLabelText $csharpLabel
說明
- 我們先引用 IronOcr 函式庫來使用其 OCR 功能。
- 建立
IronTesseract實例來處理影像/PDF 文件。 - OCR 過程的語言設定為
Han,使用Ocr.Language。 - 使用
OcrInput載入影像,並透過呼叫Ocr.Read()進行處理。 - OCR 處理的結果儲存在
Result.Text中,其中包含從文件中提取的文字。 最後,我們將文字列印到控制台。
確保使用正確的using指令,並using語句有效地管理資源,尤其是在處理檔案流等非託管資源時。





