C# 和 .NET 中的中文 OCR
本文檔的其他版本:
IronOCR 是一個 C# 軟體元件,它允許 .NET 開發人員從圖像和 PDF 文件中讀取 126 種語言(包括中文)的文字。 中文語言包包含簡體中文和繁體中文。
它是 Tesseract 的一個高級分支,專為 .NET 開發人員構建,在速度和準確性方面通常優於其他 Tesseract 引擎。 該庫能夠識別各種語言(包括中文)的不同格式的圖像和文件。 它支援超過 126 種語言,與競爭對手相比,識別準確率更高。 IronOCR 的 API 在設計時就考慮到了可擴充性和可自訂性。 您可以透過向追蹤器添加您的調校資料或功能來增強 IronOCR 的效能。 IronOCR 使用多種光學字元辨識技術,可在 Windows PC、Linux、macOS 和其他知名平台上使用。
IronOcr.Languages.Chinese 的內容
此軟體包包含 126 種適用於 .NET 的 OCR 語言:
- 中文簡體
- 中文簡體最佳
- 中文SimplifiedFast
- 中文簡體垂直
- 中文簡體垂直最佳
- 中文簡體垂直快速
- 中國傳統
- 中國傳統美食精選
- 中式傳統齋戒
- 中文傳統垂直
- 中文傳統垂直Best
- 中文傳統垂直Fast
下載
我們可以從以下連結下載中文語言包:
使用 IronOCR 識別中文
建立或開啟 C# 項目
要開始使用 IronOCR,您需要建立一個 C# .NET 專案。 為此,我們使用 Visual Studio 2022。 您可以根據自己的需求選擇版本,建議使用最新版本的 Visual Studio 以獲得流暢的使用體驗。 我們將創建一個圖形使用者介面來選擇圖像。 IronOCR 也可以透過提供影像的直接路徑在控制台應用程式中使用。 請依照下列步驟在 Visual Studio 2022 中建立 C# 專案:
- 開啟 Visual Studio 2022。 點擊"建立新項目"按鈕。
在搜尋列中輸入"Windows",從搜尋結果中選擇"Windows 窗體"應用程序,然後按一下"下一步"按鈕。
- 為項目命名。 我將此項目命名為"ChineseOCR"。 命名完成後,點選"下一步"按鈕。
- 在下一個畫面上選擇 .NET 框架。 根據專案需求選擇 .NET 框架。 本教學選用的是.NET 5.0版本。
- 選擇完成後,點選"建立"按鈕。 它將在 Visual Studio 中建立 C# Windows 窗體專案。
專案已建立完成,現在可以與 IronOCR 庫一起使用。 您也可以使用現有的 C# 項目。 開啟專案並繼續安裝 IronOCR 庫。 以下部分說明如何在 C# 專案中安裝 IronOCR 庫。
安裝
使用 NuGet 套件管理員
要使用 NuGet 套件管理器安裝 IronOCR 庫,我們必須開啟 NuGet 套件管理器介面。 請依照以下步驟安裝 IronOCR 庫:
- 點擊主選單中的"工具",將滑鼠懸停在"NuGet 套件管理員"上,然後選擇"管理解決方案的 NuGet 套件"。
這將開啟 NuGet 套件管理器介面。 前往"瀏覽"選項卡,搜尋 IronOCR Chinese。 從搜尋結果中選擇正確的軟體包,然後點擊"安裝"按鈕進行安裝。
庫安裝將開始。 安裝完成後,您就可以在專案中使用 IronOCR 庫了。
使用套件管理器控制台
使用遊戲主機始終是簡單的選擇。 我們也可以使用軟體包管理器控制台安裝 IronOCR 庫。 請依照以下步驟安裝 IronOCR 庫:
- 在 Visual Studio 中開啟程式包管理器控制台。 它通常位於 Visual Studio 的底部。
在控制台中執行以下命令:
Install-Package IronOcr.Languages.Chinese
- 您將在控制台中看到庫的安裝進度。 它會自動安裝庫。 安裝完成後,該專案即可使用 IronOCR 庫。
程式碼範例:中文OCR
現在,是時候編寫實作 IronOCR 函式庫以支援中文辨識的程式碼了。 首先,我們需要開發用於選擇影像檔案的前端介面。讓我們看看該如何實現。
前端開發
我們將使用"工具箱"元素來設計正面。 我們將建立一個按鈕、一個圖片框、一個富文本框和兩個標籤。 我們將從工具箱中拖曳這些元素,並將它們放置在 Windows 窗體中。 根據需要排列這些元素。
按鈕用於從電腦中選擇圖像文件,圖片框用於載入所選圖像,富文本框用於顯示輸出文字。 您可以根據需要調整每個元素的大小。 最終的前端設計將如下所示:
運行專案時會彈出此視窗。 我們已將 Windows 窗體的對齊方式設定為顯示在螢幕中央。
我們的前端已經準備就緒。 現在,讓我們為按鈕新增後端功能。
IronOCR的後端代碼
首先,導入 IronOCR 命名空間,以便在我們的程式碼中使用它,方法是在檔案頂部寫入以下程式碼行:
using IronOCR;using IronOCR;Imports IronOCR我們將使用"選擇圖像"按鈕來選擇圖像並將其載入到圖片框中。 IronOCR 將處理簡體中文文字影像,並在富文本框中顯示輸出文字。 讓我們透過雙擊按鈕並編寫以下程式碼來為按鈕添加功能:
private void btn_image_Click(object sender, EventArgs e)
{
OpenFileDialog open = new OpenFileDialog();
if (open.ShowDialog() == DialogResult.OK)
{
// Display image in picture box
img_image.Image = new Bitmap(open.FileName);
var Ocr = new IronTesseract();
// Set OCR language to Chinese Traditional
Ocr.Language = OcrLanguage.ChineseTraditional;
using (var Input = new OcrInput(open.FileName))
{
// Perform OCR on the image input
var Result = Ocr.Read(Input);
// Output the recognized text
txt_output.Text = Result.Text;
}
}
}private void btn_image_Click(object sender, EventArgs e)
{
OpenFileDialog open = new OpenFileDialog();
if (open.ShowDialog() == DialogResult.OK)
{
// Display image in picture box
img_image.Image = new Bitmap(open.FileName);
var Ocr = new IronTesseract();
// Set OCR language to Chinese Traditional
Ocr.Language = OcrLanguage.ChineseTraditional;
using (var Input = new OcrInput(open.FileName))
{
// Perform OCR on the image input
var Result = Ocr.Read(Input);
// Output the recognized text
txt_output.Text = Result.Text;
}
}
}Private Sub btn_image_Click(ByVal sender As Object, ByVal e As EventArgs)
Dim open As New OpenFileDialog()
If open.ShowDialog() = DialogResult.OK Then
' Display image in picture box
img_image.Image = New Bitmap(open.FileName)
Dim Ocr = New IronTesseract()
' Set OCR language to Chinese Traditional
Ocr.Language = OcrLanguage.ChineseTraditional
Using Input = New OcrInput(open.FileName)
' Perform OCR on the image input
Dim Result = Ocr.Read(Input)
' Output the recognized text
txt_output.Text = Result.Text
End Using
End If
End Sub當使用者點擊按鈕時,將出現一個對話方塊供使用者選擇圖像。 當使用者選擇圖片時,圖片將自動載入到圖片框中。 我們使用Bitmap在圖片框中顯示影像。 之後,IronOCR 將圖像轉換為中文文字。 我們將 OCR 語言設定為繁體中文,以便識別繁體中文文字。 Ocr.Read函數處理 OCR 結果並將其儲存在Result變數中。 如有需要,您可以使用SaveAs功能將文字儲存為 PDF、文字或 HTML 格式,以 IronOCR 支援的各種輸出格式儲存檔案。
運行專案
現在是時候運行專案了。 在 Visual Studio 中按一下"執行"按鈕。 您應該會看到以下畫面:
點選"選擇圖像"按鈕。 它將打開"選擇檔案"對話框。 選擇影像檔案並按下回車鍵。
它會將圖像載入到圖片框中,自動掃描圖像,並將結果顯示在文字方塊中。
這是我們選擇的圖像的輸出結果。 IronOCR 也支援讀取和掃描 PDF 檔案。 您可以使用可編輯的 PDF 文件格式,透過 IronOCR 掃描和識別文本,而且支援多種語言。 IronOCR也可以將現有的PDF文件轉換為可搜尋的PDF文件。 它採用多種影像濾鏡來增強影像清晰度。 以下是一些篩選條件:
Input.Binarize()Input.Contrast()Input.Deskew()Input.DeNoise()Input.Dilate()Input.EnhanceResolution(300)
所有這些功能都能提高字元的可見性。 IronOCR 使用這些功能建立可搜尋的 PDF。 以下是一個範例:
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf");
// Clean up twisted pages
Input.Deskew();
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf");
// Clean up twisted pages
Input.Deskew();
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
Input.AddPdf("scan.pdf")
' Clean up twisted pages
Input.Deskew()
Dim Result = Ocr.Read(Input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using授權
IronOCR 可免費用於開發。 您可以免費積極使用其所有功能。 IronOCR 還提供免費試用版,無需支付任何費用即可進行生產。 Iron Software 提供一項熱門優惠——五款軟體產品套裝,只需兩款的價格。 只需一次性支付兩款軟體產品的費用,即可獲得包括 IronPDF 和 IronXL 在內的全部五款產品。 您可以在這裡找到更多關於許可證方面的資訊。





