C# 和 .NET 中的日文 OCR

This article was translated from English: Does it need improvement?
Translated
View the article in English

此文件的其他版本:

*日語

*125 種更多的光學字符識別語言

IronOCR 是一個 C# 軟體組件,允許 .NET 程式設計師從圖像和 PDF 文件中讀取包括日語在內的 126 種語言的文字。 它是 Tesseract 的高級分支,專為 .NET 開發者設計,無論是速度還是準確性都經常超越其他 Tesseract 引擎。

它已在許多不同的硬體平台上進行測試,並且軟體庫已更新至最新版本的 .NET。 它是需要在其應用程序或項目中執行 OCR 的開發人員的好選擇。 IronOCR為應用程式開發者提供了一個易於使用的API,該API支援多種語言,並且可以以多種方式整合到應用程式中。 IronOCR 支援 127 種 OCR 語言。 這是一個極佳的 OCR 工具。

IronOcr.Languages.Japanese 的內容

IronOCR 日本語套件可以執行多種操作。 此套件包含 286 種 OCR 語言適用於 .NET:

JapaneseAlphabet

JapaneseAlphabetBest

JapaneseAlphabetFast

  • JapaneseVerticalAlphabet

    JapaneseVerticalAlphabetBest

    JapaneseVerticalAlphabetFast

  • 日文

    JapaneseBest

  • JapaneseFast
  • JapaneseVertical
  • JapaneseVerticalBest
  • JapaneseVerticalFast

下載

您可以下載 IronOCR 日語語言包[日語(日語)]從以下連結:

  • 下載為 壓縮
  • 安裝與 NuGet

    我們將在以下部分查看IronOCR的安裝。

使用 IronOCR 處理日文

建立或開啟一個 C# 專案

讓我們開始創建一個C#項目。 我們正在使用 Visual Studio 2022 來創建一個 C# 項目 — 您可以根據自己的喜好選擇任何版本。 建議使用最新版本的 Visual Studio。 按照以下步驟創建一個 C# 項目:

  • 打開 Visual Studio 2022。
  • 按下「建立新專案」按鈕。

    Chinese Ocr 1 related to 建立或開啟一個 C# 專案
  • 在搜尋欄中輸入「Windows」,從搜尋結果中選擇「Windows Form」應用程式,然後點擊「下一步」按鈕。

    Chinese Ocr 2 related to 建立或開啟一個 C# 專案
  • 給專案取一個名字。 我將專案命名為「JapaneseOCR」。命名完成後,點擊「下一步」按鈕。

    Japanese Ocr 1 related to 建立或開啟一個 C# 專案
  • 在下一個畫面中選擇 .NET framework。 根據您的項目需求選擇 .NET 框架。 我們在本教程中選擇了 .NET 5.0 版本。

    Chinese Ocr 4 related to 建立或開啟一個 C# 專案
  • 選擇後,點擊「創建」按鈕。 它將輕鬆在 Visual Studio 中創建 C# Windows Form 項目。

    專案已建立! 我們現在可以在我們的IronOCR庫中使用它。 我們也可以將它用於現有的C#項目中。 打開項目並開始安裝 IronOCR 庫。 以下部分解釋了如何在C#項目中安裝IronOCR庫。

安裝

現在是時候在我們的項目中安裝 IronOCR 庫了。 IronOCR 庫可以通過兩種不同的方式安裝。 我們可以使用套件管理器控制台和 NuGet 套件管理器來安裝 IronOCR。 讓我們來看看這兩種方法。

使用 NuGet 套件管理器

要使用 NuGet 套件管理員安裝 IronOCR 庫,我們必須打開 NuGet 套件管理員介面。 按照以下步驟安裝 IronOCR 函式庫:

  • 在主選單中點擊「工具」,從下拉選單中懸停在「NuGet 套件管理器」上,然後選擇「管理解決方案的 NuGet 套件管理器」。

    Chinese Ocr 5 related to 使用 NuGet 套件管理器
  • 這將開啟 NuGet 包管理器介面。 前往瀏覽標籤並在搜索欄中輸入IronOCR Japanese。 從搜索結果中選擇日語包,然後點擊“安裝”按鈕開始安裝。

    Japanese Ocr 2 related to 使用 NuGet 套件管理器
  • 它將開始安裝該庫。 安裝後,您將能夠在您的項目中使用 IronOCR 函式庫。

使用套件管理器控制台

我們將使用套件管理器控制台安裝 IronOCR 庫。 使用控制台安裝庫非常簡單。 讓我們看看如何使用控制台安裝 IronOCR 庫:

  • 打開專案並前往 Visual Studio 中的套件管理員控制台。 通常位於 Visual Studio 的底部。
  • 在控制台中輸入以下命令來安裝 IronOCR Japanese OCR 語言:PM> Install-Package IronOCR.Languages.Japanese
  • 安裝將開始,您將在控制台中看到進度。 安裝後,您會在解決方案總管中的「依賴項」部分看到 IronOCR 依賴。

    安裝後,您將能夠在不使用任何第三方軟體的情況下使用此庫。 接下來,該是設定我們程式前端的時候了。

程式碼示例:用於光學字符識別的日語

現在是時候編寫代碼來實現支持日語的IronOCR庫了。 首先,我們必須開發用於選擇圖像檔案的前端。讓我們看看如何做到這一點。

前端開發

為了前端開發,我們將利用 Visual Studio 中的“工具箱”。 它有許多預製的元素,我們可以使用它們來設計我們的前端。 我們將使用一個圖片框、一個富文本框、一個按鈕和兩個標籤進行識別。 我们将根据我们的需求为这些元素赋予适当的形状和良好的用户界面。 您可以根據自己的選擇更改成分的大小和屬性。我們將輸出文本框設置為不可編輯,並將圖片框的圖片屬性設置為“縮放”,因此每張圖片都會適合圖片框。 我們的前端將會看起來像這樣:

Japanese Ocr 3 related to 前端開發

後端代碼適用於IronOCR:

我們的前端已經準備好了。 現在是時候讓它上線了。但首先,我們必須導入 IronOCR 命名空間以在我們的代碼中使用 IronOCR。 在文件的顶部写下以下行:

using IronOCR;
using IronOCR;
Imports IronOCR
VB   C#

"選擇圖片"按鈕將用於選擇日本圖片。 當我們選擇圖片時,它將自動載入到圖片框中並顯示出來。 與此同時,IronOCR將開始識別上傳圖片中的日文單詞。 處理完成後,輸出將顯示在富文本框中。 讓我們通過雙擊按鈕來添加這些功能。 這是按鈕功能的代碼示例。 它還會將輸出文字儲存到一個 "txt" 檔案中。

範例程式碼

private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();
    if (open.ShowDialog() == DialogResult.OK)
    {
        // display image in picture box  
        img_image.Image = new Bitmap(open.FileName);
        // image file path  
        //textBox1.Text = open.FileName;
        var Ocr = new IronTesseract();
        Ocr.Language = OcrLanguage.JapaneseBest;
        using (var Input = new OcrInput(open.FileName))
        {
            var Result = Ocr.Read(Input);

            txt_output.Text = Result.Text;

            Result.SaveAsTextFile("JapaneseText.txt");
        }
    }
}
private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();
    if (open.ShowDialog() == DialogResult.OK)
    {
        // display image in picture box  
        img_image.Image = new Bitmap(open.FileName);
        // image file path  
        //textBox1.Text = open.FileName;
        var Ocr = new IronTesseract();
        Ocr.Language = OcrLanguage.JapaneseBest;
        using (var Input = new OcrInput(open.FileName))
        {
            var Result = Ocr.Read(Input);

            txt_output.Text = Result.Text;

            Result.SaveAsTextFile("JapaneseText.txt");
        }
    }
}
Private Sub btn_image_Click(ByVal sender As Object, ByVal e As EventArgs)
	Dim open As New OpenFileDialog()
	If open.ShowDialog() = DialogResult.OK Then
		' display image in picture box  
		img_image.Image = New Bitmap(open.FileName)
		' image file path  
		'textBox1.Text = open.FileName;
		Dim Ocr = New IronTesseract()
		Ocr.Language = OcrLanguage.JapaneseBest
		Using Input = New OcrInput(open.FileName)
			Dim Result = Ocr.Read(Input)

			txt_output.Text = Result.Text

			Result.SaveAsTextFile("JapaneseText.txt")
		End Using
	End If
End Sub
VB   C#

在這個功能中,我們實作當用戶點擊按鈕時,會出現一個選擇對話框,提示用戶選擇包含日文文字的圖片。 當用戶選擇圖像時,Bitmap() 函數取得圖片路徑並將其加載到圖片框中。 在加載後,我們初始化 IronOCR 庫並將語言設置為“日語”。 IronOCR將會把圖像路徑作為輸入並開始掃描。 掃描後,它將輸出文字儲存於「Result」變數中,並在富文本框中顯示為輸出。 最後,它將輸出文件保存為名為"JapaneseText."**的"txt"文件。

執行專案

我們已經設計了代碼並實現了後端。 現在是時候運行程序來檢查功能是否運作正常了。

  • 點擊綠色播放按鈕以執行專案。 我們將在我們操作系統的中間看到這個畫面。

    Japanese Ocr 4 related to 執行專案
  • 點擊「選擇圖片」按鈕並選擇包含日文文本的圖片。

    Japanese Ocr 5 related to 執行專案
  • 您會在豐富文本框中看到輸出圖像文字。

    Japanese Ocr 6 related to 執行專案
  • OCR結果的文本檔將以“JapaneseText”儲存。
    Japanese Ocr 7 related to 執行專案

    IronOCR 的光學字符辨識準確度非常高。

摘要

在本教學中,我們學習了如何使用IronOCR庫來識別日文文字。 如果您想了解更多關於IronOCR的資訊,請點擊此處。 連結.

有關Iron Software的更多信息,請點擊此處。 連結. 如果您想嘗試 IronOCR 函式庫,則可以免費啟動試用版。 Iron Software 目前提供一項特別優惠,您可以以兩個產品的價格購買五個軟體產品的套裝。 如需更多資訊,請點擊 這裡.