Han Simplified Alphabet OCR in C# and .NET

This article was translated from English: Does it need improvement?
Translated
View the article in English

126 種其他語言

IronOCR 是一個 C# 軟體元件,讓 .NET 程式設計師能夠從 126 種語言的圖片和 PDF 文件中讀取文字,其中包括簡體中文。

這是 Tesseract 的進階分支版本,專為 .NET 開發人員打造,無論在速度或準確度方面,其表現均定期超越其他 Tesseract 引擎。

IronOcr.Languages.Han 的內容

此套件包含 400 種適用於 .NET 的 OCR 語言:

  • HanSimplifiedAlphabet
  • HanSimplifiedAlphabetBest
  • HanSimplifiedAlphabetFast
  • HanSimplifiedVerticalAlphabet
  • HanSimplifiedVerticalAlphabetBest
  • HanSimplifiedVerticalAlphabetFast
  • HanTraditionalAlphabet
  • HanTraditionalAlphabetBest
  • HanTraditionalAlphabetFast
  • HanTraditionalVerticalAlphabet
  • HanTraditionalVerticalAlphabetBest
  • HanTraditionalVerticalAlphabetFast

下載

韓文簡體字母語言套件 [Samhan]

  • Download as [Zip](javascript:window.open("/csharp/ocr/packages/language-packs/Han.ocrdata.zip")
  • 透過 NuGet 安裝

安裝

我們首先必須將"漢語簡體字 OCR 套件"安裝至您的 .NET 專案中。

請在套件管理員主控台中執行以下指令:

Install-Package IronOcr.Languages.Han

程式碼範例

此 C# 程式碼範例可從圖片或 PDF 文件中讀取簡體中文文字。

// Reference the IronOcr library
using IronOcr;

class Program
{
    static void Main()
    {
        // Create an IronTesseract OCR engine
        var Ocr = new IronTesseract();

        // Load the Han language for OCR processing
        Ocr.Language = OcrLanguage.Han;

        // Using a 'using' statement for resource management
        using (var Input = new OcrInput(@"images\Han.png"))
        {
            // Process the image to extract text
            var Result = Ocr.Read(Input);

            // Retrieve and display the extracted text
            string AllText = Result.Text;
            System.Co/nsole.WriteLine(AllText);
        }
    }
}
// Reference the IronOcr library
using IronOcr;

class Program
{
    static void Main()
    {
        // Create an IronTesseract OCR engine
        var Ocr = new IronTesseract();

        // Load the Han language for OCR processing
        Ocr.Language = OcrLanguage.Han;

        // Using a 'using' statement for resource management
        using (var Input = new OcrInput(@"images\Han.png"))
        {
            // Process the image to extract text
            var Result = Ocr.Read(Input);

            // Retrieve and display the extracted text
            string AllText = Result.Text;
            System.Co/nsole.WriteLine(AllText);
        }
    }
}
Imports IronOcr

Class Program
    Shared Sub Main()
        ' Create an IronTesseract OCR engine
        Dim Ocr As New IronTesseract()

        ' Load the Han language for OCR processing
        Ocr.Language = OcrLanguage.Han

        ' Using a 'Using' block for resource management
        Using Input As New OcrInput("images\Han.png")
            ' Process the image to extract text
            Dim Result = Ocr.Read(Input)

            ' Retrieve and display the extracted text
            Dim AllText As String = Result.Text
            System.Console.WriteLine(AllText)
        End Using
    End Sub
End Class
$vbLabelText   $csharpLabel

說明

  • 我們首先引用 IronOCR程式庫,以利用其 OCR 功能。
  • 建立 IronTesseract 的實例以處理圖像/PDF 文件。
  • OCR 處理的語言設定為 Han,並使用 Ocr.Language
  • 透過 OcrInput 載入圖片,並透過呼叫 Ocr.Read() 進行處理。
  • OCR 處理的結果儲存於 Result.Text 中,其中包含從文件中擷取的文字。
  • 最後,我們將文字PRINT至控制台。

請確保使用正確的 using 指令,並透過 using 語句有效管理資源,特別是在處理檔案串流等非受管資源時。