C#と.NETでの中国語OCR

This article was translated from English: Does it need improvement?
Translated
View the article in English

このドキュメントの他のバージョン:

IronOCRは.NETコーダーが中国語を含む126言語の画像やPDF文書からテキストを読み取ることを可能にするC#ソフトウェア・コンポーネントです。 中国語言語パックには、中国語(簡体字)と中国語(繁体字)の両方の文字が含まれています。

これは、.NET 開発者専用に構築された Tesseract の高度なフォークであり、速度と精度の両方において他の Tesseract エンジンを常に上回っています。 このライブラリでは、中国語を含むさまざまな言語のさまざまな形式の画像や文書を認識できます。 125 以上の言語をサポートし、競合製品と比較して高い認識精度を提供します。 IronOCR の API は、拡張性とカスタマイズを考慮して設計されています。 あなたのチューニング・データや機能をトラッカーに追加することで、IronOCRが高いスループットと精度を達成するのを助けることができます。 IronOCRは多くの光学式文字認識技術を使用しています。 Windows PC、Linux、macOS、その他の有名なプラットフォームで使用できます。

IronOcr.Languages.Chinese の内容

このパッケージには、.NET 用の 352 個の OCR 言語が含まれています。

  • 中国語(簡体字)
  • 中国語(簡体字)ベスト
  • 中国語(簡体字)高速
  • 中国語(簡体字)縦書き
  • 中国語(簡体字)縦書きベスト
  • 中国語(簡体字)縦書き高速
  • 中国語(繁体字)
  • 中国語(繁体字)ベスト
  • 中国語(繁体字、高速)
  • 中国語(繁体字)縦書き *中国語繁体字縦向きベスト
  • 中国語(繁体字)縦書き高速

ダウンロード

中国語言語パック [中文 (Zhōngwén)] は次のリンクからダウンロードできます。

  • Zip としてダウンロードしてください。
  • NuGet でインストールしてください。

中国語にIronOCRを使用する

C# プロジェクトを作成または開く

IronOCRを始めるには、C# .NETプロジェクトを作成する必要があります。 この目的のために Visual Studio 2022 を使用しています。 ニーズに応じてバージョンを選択できます。 Visual Studioの最新バージョンを使用することを推奨します。 画像を選択するための GUI インターフェースを作成します。 コンソールアプリケーションでIronOCRを使用することもできます。 Visual Studio 2022 で C# プロジェクトを作成するには、次の手順を実行します。

  • Visual Studio 2022 を開きます。
  • "新しいプロジェクトを作成"ボタンをクリックします。
Chinese Ocr 1 related to C# プロジェクトを作成または開く

検索バーに"Windows"と入力し、検索結果から"Windows フォーム" アプリケーションを選択して*、"次へ"ボタンをクリックします。

Chinese Ocr 2 related to C# プロジェクトを作成または開く
  • プロジェクトに名前を付けます。 私はこのプロジェクトに"ChineseOCR"という名前を割り当てます。 名前の後に、[次へ]ボタンをクリックしてください。
Chinese Ocr 3 related to C# プロジェクトを作成または開く

次の画面で .NET Framework*を選択します。 プロジェクトのニーズに応じて .NET フレームワークを選択します。 このチュートリアルでは、.NET 5.0 バージョンを選択します。

Chinese Ocr 4 related to C# プロジェクトを作成または開く

※選択後、"作成"ボタンをクリックします。 Visual Studio で C# Windows フォーム プロジェクトを簡単に作成できます。

プロジェクトは作成され、IronOCRライブラリで使用できるようになりました。 既存のC#プロジェクトを使用することも可能です。 プロジェクトを開き、IronOCRライブラリのインストールを開始する。 次のセクションでは、C#プロジェクトにIronOCRライブラリをインストールする方法について説明する。

インストール

NuGetパッケージマネージャーを使用

NuGet パッケージ マネージャーを使用して IronOCR ライブラリをインストールするには、NuGet パッケージ マネージャー インターフェイスを開く必要があります。 IronOCR ライブラリをインストールするには、次の手順に従います。

  • メインメニューから "Tools "をクリックし、ドロップダウンメニューから "NuGet Package Manager "にカーソルを合わせ、"Manage NuGet Package Manager for Solution "を選択してください。
Chinese Ocr 5 related to NuGetパッケージマネージャーを使用.
  • これにより、NuGet パッケージ マネージャー インターフェイスが開きます。 閲覧タブでIronOCR中国語を検索してください。 検索結果から適切なパッケージを選択し、"インストール"ボタンをクリックしてインストールしてください。
Chinese Ocr 6 related to NuGetパッケージマネージャーを使用
  • ライブラリのインストールを開始します。 インストール後、プロジェクトで IronOCR ライブラリを使用できるようになります。

パッケージマネージャーコンソールの使用

コンソールを使用するのは常に簡単なオプションです。 IronOCRライブラリはパッケージマネージャーコンソールからもインストールできます。 指示に従ってIronOCRライブラリをインストールしてください:

  • Visual Studio でパッケージ マネージャー コンソールを開きます。 通常、Visual Studio の下部にあります。
  • コンソールに次のコマンドを書いてください:

    Install-Package IronOCR.Languages.Chinese
  • コンソールにライブラリのインストールの進行状況が表示されます。 ライブラリが自動的にインストールされます。 インストール後、プロジェクトはIronOCRライブラリの準備が整います。

コード例: 中国語の OCR

ここで、中国語用の IronOCR ライブラリを実装するためのコードを記述します。 まず、画像ファイルを選択するフロントエンドを開発しなければなりません。では、その方法を見てみましょう。

フロントエンドの開発

"ツールボックス"要素を使用してフロントをデザインします。 ボタン、ピクチャーボックス、リッチテキストボックス、2つのラベルを作成します。 これらの要素をツールボックスからドラッグ・アンド・ドロップし、ウィンドウ・フォームに配置します。 これらの要素をスタイリッシュに管理します。

このボタンは、PCから画像ファイルを選択するために使用されます。 ピクチャーボックスは選択した画像ファイルを読み込み、リッチテキストボックスは出力テキストを表示します。 ニーズに応じて各要素のサイズを調整できます。 最終的なフロントエンドのデザインは次のようになります。

Chinese Ocr 7 related to フロントエンドの開発

プロジェクトを実行すると、このウィンドウがポップアップ表示されます。 ウィンドウの配置は、画面の中央になるように設定しています。 そのため、この画面は中央に表示されます。

フロントエンドが準備完了です。 次に、ボタンのバックエンド機能を追加します。

IronOCRのバックエンドコード

コードで使用するためには、まずIronOCR名前空間をインポートする必要があります。 ファイルの先頭に次の行を記述してください:

using IronOCR;
using IronOCR;
Imports IronOCR
$vbLabelText   $csharpLabel

画像を選択し、ピクチャーボックスに画像を読み込むには、"画像を選択"ボタンを使用します。 IronOCRは中国語簡体字テキスト画像を処理し、出力テキストをリッチテキストボックスに表示します。 ボタンをダブルクリックして、ボタンの機能を追加してみましょう。 説明されている機能を追加するために、以下のコード行を記述してください:

private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();
    if (open.ShowDialog() == DialogResult.OK)
    {
        // display image in picture box  
        img_image.Image = new Bitmap(open.FileName);

        var Ocr = new IronTesseract();

Ocr.Language = OcrLanguage.ChineseTraditional;

using (var Input = new OcrInput(open.FileName))
        {
            var Result = Ocr.Read(Input);

            txt_output.Text = Result.Text;
        }
    }
}
private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();
    if (open.ShowDialog() == DialogResult.OK)
    {
        // display image in picture box  
        img_image.Image = new Bitmap(open.FileName);

        var Ocr = new IronTesseract();

Ocr.Language = OcrLanguage.ChineseTraditional;

using (var Input = new OcrInput(open.FileName))
        {
            var Result = Ocr.Read(Input);

            txt_output.Text = Result.Text;
        }
    }
}
Private Sub btn_image_Click(ByVal sender As Object, ByVal e As EventArgs)
	Dim open As New OpenFileDialog()
	If open.ShowDialog() = DialogResult.OK Then
		' display image in picture box  
		img_image.Image = New Bitmap(open.FileName)

		Dim Ocr = New IronTesseract()

Ocr.Language = OcrLanguage.ChineseTraditional

Using Input = New OcrInput(open.FileName)
			Dim Result = Ocr.Read(Input)

			txt_output.Text = Result.Text
End Using
	End If
End Sub
$vbLabelText   $csharpLabel

ユーザーがボタンをクリックすると、画像を選択するためのダイアログが表示されます。 ユーザーが画像を選択すると、自動的に画像ボックスに読み込まれます。 私たちは、画像を画像ボックスに印刷するためにBitmap()を使用しています。 その後、IronOCRは画像を中国語のテキストに変換します。 私たちは、Ocr. 繁体字中国語のテキストを認識するため、ChineseTraditionalへの言語。 Ocr. read関数は、プロセスを読み取り、OCR結果をResult変数に格納します。 PDF、テキスト、HTML形式でテキストを保存する必要がある場合は、SaveAs機能を使って任意の出力形式でファイルを保存します - IronOcrは複数の出力形式をサポートしています。

プロジェクトの実行

さて、プロジェクトを実行します。 Visual Studio の [実行] ボタンをクリックします。 私たちの画面にはこのような画面が表示されます。

Chinese Ocr 8 related to プロジェクトの実行

"画像を選択"ボタンをクリックします。 ファイルの選択ダイアログボックスが開きます。 画像ファイルを選択してエンターキーを押してください。

Chinese Ocr 9 related to プロジェクトの実行.

画像ボックスに画像を読み込み、自動的にスキャンし、テキストボックスに出力を表示します。

Chinese Ocr 10 related to プロジェクトの実行

これは、私たちが選択した画像からの出力です。 IronOCRはPDFファイルの読み取りとスキャンもサポートしています。 PDFファイルの編集可能なフォーマットを使用して、IronOCRを使用してテキストをスキャンし、認識することができます。 これは異なる言語でも可能です。 IronOCRは既存のPDF文書を検索可能なPDFにすることができます。 IronOCRは画像を見やすく、理解しやすくするために多くの画像フィルターを備えています。 以下はフィルターです:

  • Input.Binarize()
  • 入力.コントラスト()
  • Input.Deskew()
  • Input.DeNoise()
  • 入力.Dilate()
  • 入力.EnhanceResolution(300)

これらの機能はすべて、文字の認知度を高めます。 IronOCRはこれらの機能を使い、検索可能なPDFを作成します。 では、どのようにすればよいのでしょうか:

using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf")
    // clean up twisted pages
    Input.Deskew();
    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf")
    // clean up twisted pages
    Input.Deskew();
    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddPdf("scan.pdf") Input.Deskew()
	Dim Result = Ocr.Read(Input)
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using
$vbLabelText   $csharpLabel

ライセンス

  • PDFs あなたは積極的に無料ですべての機能を使用することができます。 IronOCRは無料トライアルも提供しています。 Iron Softwareは現在、5つのソフトウェア製品スイートを2つの価格で提供するキャンペーンも好評を博しています。 2つのソフトウェア製品の料金を1回支払うだけで、IronPDFとIronXLを含む5つの製品すべてを入手することができます。 このリンクから、ライセンスに関するより多くの情報を見つけることができます。