Japanese OCR in C# and .NET
**本文件的其他版本:日文版
IronOCR 是一個 C# 軟體元件,讓 .NET 程式設計師能夠從 126 種語言(包括日語)的圖片和 PDF 文件中讀取文字。 這是 Tesseract 的進階分支版本,專為 .NET 開發人員打造,無論在速度或準確度方面,其表現通常都優於其他 Tesseract 引擎。
本軟體已於多種硬體平台進行測試,且該程式庫已更新至最新版本的 .NET 版本。 對於需要在應用程式或專案中執行 OCR 的開發者而言,這是一個不錯的選擇。 IronOCR 為應用程式開發人員提供一個易於使用的 API,該 API 支援多種程式語言,並可透過多種方式整合至應用程式中。 IronOCR 支援 125 種 OCR 語言。 這是一款非常出色的 OCR 工具。
IronOcr.Languages.Japanese 的內容
IronOCR 日文套件可執行多種操作。 此套件包含數種適用於 .NET 的 OCR 語言:
- 日文Alphabet
- 日文AlphabetBest
- 日文AlphabetFast
- 日文VerticalAlphabet
- 日文VerticalAlphabetBest
- 日文VerticalAlphabetFast
- 日文
- 日文Best
- 日文Fast
- 日文Vertical
- 日文VerticalBest
- 日文VerticalFast
下載
您可以從以下連結下載 IronOCR 日語語言包 [日本語 (にほんご)]:
- 下載 [ Zip ](<a class=)">ZIP 檔案
- 透過 [ NuGet ](<a target=)">NuGet 安裝
我們將在接下來的章節中探討 IronOCR 的安裝流程。
using IronOCR 處理日語
建立或開啟 C# 專案
讓我們從建立一個 C# 專案開始。 我們使用 Visual Studio 2022 建立 C# 專案 — 您可以根據個人偏好選擇任何版本。 建議使用 Visual Studio 的最新版本。 請依照以下步驟建立 C# 專案:
- 開啟 Visual Studio 2022。
- 點擊"建立新專案"按鈕。
- 在搜尋欄中輸入"Windows",從搜尋結果中選取"Windows Form" 應用程式,然後按一下"下一步"按鈕。
- 為專案命名。 我已將專案命名為"JapaneseOCR"。命名完成後,請點擊"下一步"按鈕。
- 請在下一畫面中選取 .NET Framework。 請根據您的專案需求選擇合適的 .NET Framework。 本教學將選用 .NET 5.0 版本。
- 選取後,請點擊"建立"按鈕。 它將能輕鬆地在 Visual Studio 中建立 C# Windows Form 專案。
專案已建立! 現在我們可以在 IronOCR 程式庫中使用它了。 我們也可以將其用於現有的 C# 專案中。 開啟專案並開始安裝 IronOCR程式庫。 以下部分說明如何在 C# 專案中安裝 IronOCR程式庫。
安裝
現在是時候在我們的專案中安裝 IronOCR程式庫了。 IronOCR程式庫可透過兩種不同方式進行安裝。 我們可以透過套件管理主控台 (Package Manager Console) 和 NuGet 套件管理員來安裝 IronOCR。 讓我們來看看這兩種方法。
使用 NuGet 套件管理員
若要透過 NuGet 套件管理員安裝 IronOCR程式庫,我們必須開啟 NuGet 套件管理員介面。 請依照以下步驟安裝 IronOCR程式庫:
- 從主選單點選"工具",在下拉式選單中將游標懸停於"NuGet 套件管理員",然後選取"管理解決方案的 NuGet 套件"。
- 此操作將開啟 NuGet 套件管理員介面。 前往"瀏覽"分頁,並在搜尋欄中輸入"IronOCR Japanese"。 從搜尋結果中選取日文套件,並點擊"安裝"按鈕以開始安裝。
- 系統將開始安裝該函式庫。 安裝完成後,您即可在專案中使用 IronOCR程式庫。
使用套件管理主控台
我們將使用套件管理主控台安裝 IronOCR程式庫。 透過命令列安裝此函式庫非常簡單。 讓我們來看看如何透過命令列安裝 IronOCR程式庫:
- 開啟專案,並在 Visual Studio 中開啟"套件管理員主控台"。 它通常位於 Visual Studio 的底部。
-
請在控制台輸入以下指令以安裝 IronOCR 日文 OCR 語言:
PM> Install-Package IronOcr.Languages.JapanesePM> Install-Package IronOcr.Languages.JapaneseSHELL - 安裝程序即將開始,您將在控制台看到進度。 安裝完成後,您將在"解決方案總覽"的"依賴項"區段中看到 IronOCR 依賴項。
安裝完成後,您將無需任何第三方軟體即可使用此函式庫。 接下來,是時候設定我們程式的前端了。
程式碼範例:日文 OCR
現在是時候編寫實作 IronOCR 日文版程式庫的程式碼了。 首先,我們必須開發用於選取圖像檔案的前端介面。讓我們來看看該如何操作。
前端開發
在前端開發方面,我們將善用 Visual Studio 中的"工具箱"。 它包含許多現成的元件,可供我們設計前端介面。 我們將使用一個圖片方塊、一個富文字方塊、一個按鈕以及兩個標籤作為識別標記。 我們將根據需求,為這些元素設計合適的版型與優質的使用者介面。 您可以根據需求調整元素的大小與屬性。我們將輸出文字方塊設為不可編輯,並將圖片方塊的圖片屬性設為"Zoom",因此每張圖片都會完美填滿圖片方塊。 我們的前端介面將呈現如下樣貌:
IronOCR 的後端程式碼
我們的前端部分已準備就緒。 現在是時候讓它上線了。但在那之前,我們必須先導入 IronOCR 命名空間,才能在程式碼中使用 IronOCR。 請在檔案頂端寫入以下內容:
using IronOCR;
using IronOCR;
Imports IronOCR
"選取圖片"按鈕將用於選取日文圖片。 當我們選取圖片時,它會自動載入至圖片方塊中並顯示出來。 與此同時,IronOCR 將開始識別上傳圖片中的日文單字。 流程完成後,結果將顯示於富文本方塊中。 讓我們透過雙擊該按鈕,將這些功能加入其中。 以下是按鈕功能的程式碼範例。 它還會將輸出文字儲存至"txt"檔案中。
private void btn_image_Click(object sender, EventArgs e)
{
OpenFileDialog open = new OpenFileDialog();
// Display the image selection dialog, and upon successful image selection, proceed
if (open.ShowDialog() == DialogResult.OK)
{
// Display selected image in the picture box
img_image.Image = new Bitmap(open.FileName);
// Initialize IronTesseract for OCR processing
var Ocr = new IronTesseract
{
// Set the OCR language to JapaneseBest for optimal accuracy
Language = OcrLanguage.JapaneseBest
};
// Using 'OcrInput' to process the selected image file
using (var Input = new OcrInput(open.FileName))
{
// Perform OCR to extract text from the image
var Result = Ocr.Read(Input);
// Display recognized text in the rich text box
txt_output.Text = Result.Text;
// Save the output as a text file named "JapaneseText.txt"
Result.SaveAsTextFile("JapaneseText.txt");
}
}
}
private void btn_image_Click(object sender, EventArgs e)
{
OpenFileDialog open = new OpenFileDialog();
// Display the image selection dialog, and upon successful image selection, proceed
if (open.ShowDialog() == DialogResult.OK)
{
// Display selected image in the picture box
img_image.Image = new Bitmap(open.FileName);
// Initialize IronTesseract for OCR processing
var Ocr = new IronTesseract
{
// Set the OCR language to JapaneseBest for optimal accuracy
Language = OcrLanguage.JapaneseBest
};
// Using 'OcrInput' to process the selected image file
using (var Input = new OcrInput(open.FileName))
{
// Perform OCR to extract text from the image
var Result = Ocr.Read(Input);
// Display recognized text in the rich text box
txt_output.Text = Result.Text;
// Save the output as a text file named "JapaneseText.txt"
Result.SaveAsTextFile("JapaneseText.txt");
}
}
}
Private Sub btn_image_Click(ByVal sender As Object, ByVal e As EventArgs)
Dim open As New OpenFileDialog()
' Display the image selection dialog, and upon successful image selection, proceed
If open.ShowDialog() = DialogResult.OK Then
' Display selected image in the picture box
img_image.Image = New Bitmap(open.FileName)
' Initialize IronTesseract for OCR processing
Dim Ocr = New IronTesseract With {.Language = OcrLanguage.JapaneseBest}
' Using 'OcrInput' to process the selected image file
Using Input = New OcrInput(open.FileName)
' Perform OCR to extract text from the image
Dim Result = Ocr.Read(Input)
' Display recognized text in the rich text box
txt_output.Text = Result.Text
' Save the output as a text file named "JapaneseText.txt"
Result.SaveAsTextFile("JapaneseText.txt")
End Using
End If
End Sub
在此函式中,當使用者點擊按鈕時,將出現一個選取對話方塊,提示使用者選擇一張包含日文文字的圖片。 當使用者選取圖片時,Bitmap 函式會取得圖片路徑並將其載入至圖片方塊中。 載入後,我們會初始化 IronOCR程式庫,並將語言設定為日文。 IronOCR 會將圖片路徑作為輸入,並開始掃描。 掃描完成後,它會將輸出文字儲存至 Result 變數中,並在富文本方塊中顯示為輸出內容。 最後,它將輸出檔案儲存為名為"JapaneseText"的"txt"檔案。
執行專案
我們已設計好程式碼並實作後端。 現在是時候執行程式,以檢查功能是否運作正常。
- 點擊綠色播放按鈕以執行專案。 我們將在作業系統螢幕的中間看到這個畫面。
- 點擊"選擇圖片"按鈕,並選取包含日文文字的圖片。
- 您將在富文本方塊中看到輸出圖像的文字。
- OCR 結果的文字檔將以"JapaneseText"為檔名儲存。
IronOCR 的 OCR 準確度極佳。
摘要
在本教學中,我們學習了如何使用 IronOCR程式庫處理日文文字。 若想進一步了解 IronOCR,請點擊此連結。
如需更多關於 Iron Software 的資訊,請點擊此連結。 若您想試用 IronOCR 程式庫,可立即啟用免費試用版,無需支付任何費用。 Iron Software 目前推出特別優惠,您只需支付兩款軟體的價格,即可購買包含五款軟體產品的 Suite 套裝組合。 如需更多資訊,請點擊此處。

