使用 C# 和 .NET 進行日文 OCR 識別

This article was translated from English: Does it need improvement?
Translated
View the article in English

**本文檔的其他版本 *新增 125 種 OCR 語言

IronOCR 是一個 C# 軟體元件,允許 .NET 程式設計師從圖像和 PDF 文件中讀取 126 種語言(包括日語)的文字。 它是 Tesseract 的一個高級分支,專為 .NET 開發人員構建,在速度和準確性方面通常優於其他 Tesseract 引擎。

它已在多種不同的硬體平台上進行了測試,並且軟體庫已更新到最新版本的 .NET。 對於需要在應用程式或專案中執行 OCR 的開發人員來說,這是一個不錯的選擇。 IronOCR 為應用程式開發人員提供了一個易於使用的 API,該 API 可與多種語言配合使用,並可透過各種方式整合到應用程式中。 IronOCR 支援 125 種 OCR 語言。 它是一款非常棒的OCR工具。

IronOcr.Languages.Japanese 的內容

IronOCR 日本軟體包可執行多種操作。 此軟體包包含多種適用於 .NET 的 OCR 語言:

  • 日文字母
  • 日文字母Best
  • 日文字母Fast
  • 日文垂直字母
  • 日文豎字母表最佳
  • 日文垂直字母表快速
  • 日本人
  • 日本人Best
  • 日本人Fast
  • 日本垂直
  • 日本垂直Best
  • 日本垂直Fast

下載

您可以從以下連結下載 IronOCR 日語語言套件 [日文 (Nihongo)]:

  • 下載為[ Zip ](<a class=)">Zip 檔案
  • 使用[ NuGet ](<a target=)">NuGet安裝

我們將在以下章節中介紹 IronOCR 的安裝。

使用 IronOCR 辨識日語

建立或開啟 C# 項目

讓我們從建立一個 C# 專案開始。 我們使用 Visual Studio 2022 建立 C# 專案—您可以根據自己的喜好選擇任何版本。 建議使用 Visual Studio 的最新版本。 請依照下列步驟建立 C# 專案:

  • 開啟 Visual Studio 2022。 點擊"建立新項目"按鈕。
Chinese Ocr 1 related to 建立或開啟 C# 項目

在搜尋列中輸入"Windows",從搜尋結果中選擇"Windows Form"*應用程序,然後按一下"下一步"按鈕。

Chinese Ocr 2 related to 建立或開啟 C# 項目
  • 為項目命名。 我已將專案命名為"JapaneseOCR"。命名完成後,點選"下一步"按鈕。
Japanese Ocr 1 related to 建立或開啟 C# 項目

在下一個畫面上選擇.NET 框架*。 根據專案需求選擇 .NET 框架。 本教學選用的是.NET 5.0版本。

Chinese Ocr 4 related to 建立或開啟 C# 項目
  • 選擇完成後,點選"建立"按鈕。 它可以輕鬆地在 Visual Studio 中建立 C# Windows 窗體專案。

專案已建立! 現在我們可以在我們的 IronOCR 庫中使用它了。 我們也可以將其用於現有的 C# 專案。 開啟專案並開始安裝 IronOCR 庫。 以下部分說明如何在 C# 專案中安裝 IronOCR 庫。

安裝

現在是時候在我們的專案中安裝 IronOCR 庫了。 IronOCR庫可以透過兩種不同的方式安裝。 我們可以使用套件管理器控制台和 NuGet 套件管理器安裝 IronOCR。 讓我們來看看這兩種方法。

使用 NuGet 套件管理員

要使用 NuGet 套件管理器安裝 IronOCR 庫,我們必須開啟 NuGet 套件管理器介面。 請依照以下步驟安裝 IronOCR 庫:

  • 從主選單中按一下"工具",從下拉式功能表中,將滑鼠停留在"NuGet 套件管理員"上,然後選擇"管理解決方案的 NuGet 套件"。
Chinese Ocr 5 related to 使用 NuGet 套件管理員

這將開啟 NuGet 套件管理器介面。 前往"瀏覽"選項卡,然後在搜尋欄中輸入"IronOCR 日語"。 從搜尋結果中選擇日語軟體包,然後點擊"安裝"按鈕開始安裝。

Japanese Ocr 2 related to 使用 NuGet 套件管理員
  • 它將開始安裝庫。 安裝完成後,您就可以在專案中使用 IronOCR 庫了。

使用套件管理器控制台

我們將使用軟體包管理器控制台安裝 IronOCR 庫。 使用控制台安裝該庫非常簡單。 讓我們來看看如何使用控制台安裝 IronOCR 庫:

  • 開啟項目,然後前往 Visual Studio 中的套件管理器控制台。 它通常位於 Visual Studio 的底部。
  • 在控制台中輸入以下指令安裝 IronOCR 日語 OCR 語言:

    PM> Install-Package IronOCR.Languages.Japanese
    PM> Install-Package IronOCR.Languages.Japanese
    SHELL
  • 安裝將開始,您將在控制台中看到進度。 安裝完成後,您將在解決方案資源管理器的"依賴項"部分看到 IronOCR 依賴項。

安裝完成後,您無需任何第三方軟體即可使用該程式庫。 接下來,是時候建立我們程式的前端了。

程式碼範例:日文 OCR

現在是時候編寫實作日文 IronOCR 函式庫的程式碼了。 首先,我們需要開發用於選擇影像檔案的前端介面。讓我們來看看如何實現。

前端開發

對於前端開發,我們將利用 Visual Studio 中的"工具箱"。 它包含許多預製元素,我們可以利用這些元素來設計我們的前端。 我們將使用圖片框、富文本框、按鈕和兩個標籤進行識別。 我們將根據自身需求,為這些元素賦予合適的形狀和良好的使用者介面。 您可以根據需要變更元素的大小和屬性。我們將輸出文字方塊設為不可編輯,並將圖片框的圖片屬性設為"縮放",以便每張圖片都能適應圖片框的大小。 我們的前端介面將如下所示:

Japanese Ocr 3 related to 前端開發

IronOCR的後端代碼

我們的前端已經準備就緒。 現在是時候讓它上線了。但首先,我們需要匯入 IronOCR 命名空間才能在程式碼中使用 IronOCR。 在文件頂部寫入以下行:

using IronOCR;
using IronOCR;
Imports IronOCR
$vbLabelText   $csharpLabel

"選擇圖像"按鈕用於選擇日文圖像。 當我們選擇圖片時,它將自動載入到圖片框中並顯示出來。 同時,IronOCR 將開始辨識上傳圖片中的日文單字。 流程完成後,輸出結果將顯示在富文本方塊中。 讓我們雙擊按鈕,為它添加這些功能。 以下是按鈕功能的程式碼範例。 它還會將輸出文字儲存到"txt"檔案中。

private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();

    // Display the image selection dialog, and upon successful image selection, proceed
    if (open.ShowDialog() == DialogResult.OK)
    {
        // Display selected image in the picture box
        img_image.Image = new Bitmap(open.FileName);

        // Initialize IronTesseract for OCR processing
        var Ocr = new IronTesseract
        {
            // Set the OCR language to JapaneseBest for optimal accuracy
            Language = OcrLanguage.JapaneseBest
        };

        // Using 'OcrInput' to process the selected image file
        using (var Input = new OcrInput(open.FileName))
        {
            // Perform OCR to extract text from the image
            var Result = Ocr.Read(Input);

            // Display recognized text in the rich text box
            txt_output.Text = Result.Text;

            // Save the output as a text file named "JapaneseText.txt"
            Result.SaveAsTextFile("JapaneseText.txt");
        }
    }
}
private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();

    // Display the image selection dialog, and upon successful image selection, proceed
    if (open.ShowDialog() == DialogResult.OK)
    {
        // Display selected image in the picture box
        img_image.Image = new Bitmap(open.FileName);

        // Initialize IronTesseract for OCR processing
        var Ocr = new IronTesseract
        {
            // Set the OCR language to JapaneseBest for optimal accuracy
            Language = OcrLanguage.JapaneseBest
        };

        // Using 'OcrInput' to process the selected image file
        using (var Input = new OcrInput(open.FileName))
        {
            // Perform OCR to extract text from the image
            var Result = Ocr.Read(Input);

            // Display recognized text in the rich text box
            txt_output.Text = Result.Text;

            // Save the output as a text file named "JapaneseText.txt"
            Result.SaveAsTextFile("JapaneseText.txt");
        }
    }
}
Private Sub btn_image_Click(ByVal sender As Object, ByVal e As EventArgs)
	Dim open As New OpenFileDialog()

	' Display the image selection dialog, and upon successful image selection, proceed
	If open.ShowDialog() = DialogResult.OK Then
		' Display selected image in the picture box
		img_image.Image = New Bitmap(open.FileName)

		' Initialize IronTesseract for OCR processing
		Dim Ocr = New IronTesseract With {.Language = OcrLanguage.JapaneseBest}

		' Using 'OcrInput' to process the selected image file
		Using Input = New OcrInput(open.FileName)
			' Perform OCR to extract text from the image
			Dim Result = Ocr.Read(Input)

			' Display recognized text in the rich text box
			txt_output.Text = Result.Text

			' Save the output as a text file named "JapaneseText.txt"
			Result.SaveAsTextFile("JapaneseText.txt")
		End Using
	End If
End Sub
$vbLabelText   $csharpLabel

在此功能中,當使用者點擊按鈕時,將出現一個選擇對話框,提示使用者選擇包含日文文字的圖像。 當使用者選擇圖像時, Bitmap函數會取得圖像路徑並將其載入到圖片框中。 載入完成後,我們初始化 IronOCR 函式庫並將語言設定為日文。 IronOCR 以影像路徑作為輸入並開始掃描。 掃描完成後,它會將輸出文字儲存在Result變數中,並將其顯示在富文本框中。 最後,它將輸出檔案儲存為名為"JapaneseText"的"txt"檔案。

運行專案

我們已經設計了程式碼並實現了後端。 現在是時候運行程序,檢查其功能是否正常了。

  • 點選綠色播放按鈕運行項目。 我們將在作業系統畫面的中間看到這個畫面。
Japanese Ocr 4 related to 運行專案
  • 點選"選擇圖像"按鈕,選擇包含日文文字的圖像。
Japanese Ocr 5 related to 運行專案
  • 您將在富文本方塊中看到輸出圖像文字。
Japanese Ocr 6 related to 運行專案
  • OCR 結果將以"JapaneseText"為名儲存為文字檔。
Japanese Ocr 7 related to 運行專案

IronOCR的OCR辨識準確率非常出色。

摘要

在本教程中,我們學習如何使用 IronOCR 庫識別日文文字。 如果您想了解更多關於IronOCR的信息,請點擊此連結

有關 Iron Software 的更多信息,請點擊此鏈接。 如果您想試用 IronOCR 庫,可以啟動免費試用版,無需支付任何費用。 Iron Software 目前正在進行一項特別優惠活動,您可以以兩款軟體產品的價格購買一套五款軟體產品。 欲了解更多信息,請點擊此處