Han Simplified Alphabet OCR in C# and .NET
This article was translated from English: Does it need improvement?
Translated
View the article in English
IronOCR 是一個 C# 軟體元件,讓 .NET 程式設計師能夠從 126 種語言的圖片和 PDF 文件中讀取文字,其中包括簡體中文。
這是 Tesseract 的進階分支版本,專為 .NET 開發人員打造,無論在速度或準確度方面,其表現均定期超越其他 Tesseract 引擎。
IronOcr.Languages.Han 的內容
此套件包含 400 種適用於 .NET 的 OCR 語言:
- HanSimplifiedAlphabet
- HanSimplifiedAlphabetBest
- HanSimplifiedAlphabetFast
- HanSimplifiedVerticalAlphabet
- HanSimplifiedVerticalAlphabetBest
- HanSimplifiedVerticalAlphabetFast
- HanTraditionalAlphabet
- HanTraditionalAlphabetBest
- HanTraditionalAlphabetFast
- HanTraditionalVerticalAlphabet
- HanTraditionalVerticalAlphabetBest
- HanTraditionalVerticalAlphabetFast
下載
韓文簡體字母語言套件 [Samhan]
- Download as [Zip](javascript:window.open("/csharp/ocr/packages/language-packs/Han.ocrdata.zip")
- 透過 NuGet 安裝
安裝
我們首先必須將"漢語簡體字 OCR 套件"安裝至您的 .NET 專案中。
請在套件管理員主控台中執行以下指令:
Install-Package IronOcr.Languages.Han
程式碼範例
此 C# 程式碼範例可從圖片或 PDF 文件中讀取簡體中文文字。
// Reference the IronOcr library
using IronOcr;
class Program
{
static void Main()
{
// Create an IronTesseract OCR engine
var Ocr = new IronTesseract();
// Load the Han language for OCR processing
Ocr.Language = OcrLanguage.Han;
// Using a 'using' statement for resource management
using (var Input = new OcrInput(@"images\Han.png"))
{
// Process the image to extract text
var Result = Ocr.Read(Input);
// Retrieve and display the extracted text
string AllText = Result.Text;
System.Co/nsole.WriteLine(AllText);
}
}
}
// Reference the IronOcr library
using IronOcr;
class Program
{
static void Main()
{
// Create an IronTesseract OCR engine
var Ocr = new IronTesseract();
// Load the Han language for OCR processing
Ocr.Language = OcrLanguage.Han;
// Using a 'using' statement for resource management
using (var Input = new OcrInput(@"images\Han.png"))
{
// Process the image to extract text
var Result = Ocr.Read(Input);
// Retrieve and display the extracted text
string AllText = Result.Text;
System.Co/nsole.WriteLine(AllText);
}
}
}
Imports IronOcr
Class Program
Shared Sub Main()
' Create an IronTesseract OCR engine
Dim Ocr As New IronTesseract()
' Load the Han language for OCR processing
Ocr.Language = OcrLanguage.Han
' Using a 'Using' block for resource management
Using Input As New OcrInput("images\Han.png")
' Process the image to extract text
Dim Result = Ocr.Read(Input)
' Retrieve and display the extracted text
Dim AllText As String = Result.Text
System.Console.WriteLine(AllText)
End Using
End Sub
End Class
$vbLabelText
$csharpLabel
說明
- 我們首先引用 IronOCR程式庫,以利用其 OCR 功能。
- 建立
IronTesseract的實例以處理圖像/PDF 文件。 - OCR 處理的語言設定為
Han,並使用Ocr.Language。 - 透過
OcrInput載入圖片,並透過呼叫Ocr.Read()進行處理。 - OCR 處理的結果儲存於
Result.Text中,其中包含從文件中擷取的文字。 - 最後,我們將文字PRINT至控制台。
請確保使用正確的 using 指令,並透過 using 語句有效管理資源,特別是在處理檔案串流等非受管資源時。

