C#および.NETでの中国語OCR

This article was translated from English: Does it need improvement?
Translated
View the article in English

このドキュメントの他のバージョン:

  • 简体中文版
  • さらに125のOCR言語

    IronOCRは、.NETコード作成者が画像やPDFドキュメントから中国語を含む126の言語でテキストを読み取ることを可能にするC#ソフトウェアコンポーネントです。 中国語言語パックには、簡体字と繁体字の両方の文字が含まれています。

    これは、特に.NET開発者向けに構築されたTesseractの高度なフォークであり、速度と精度の両方で他のTesseractエンジンを定期的に上回ります。 ライブラリは、中国語を含むさまざまな言語で異なる形式の画像および文書の認識を可能にします。 それは125以上の言語に対応しており、競合他社と比較して高い認識精度を提供します。 IronOCRのAPIは、拡張性とカスタマイズ性を念頭に設計されています。 トラッカーにチューニングデータや機能を追加することで、IronOCRの高スループットと精度を達成するのに役立てることができます。 IronOCRは多くの光学文字認識技術を使用しています。 Windows PC、Linux、macOSなどの有名なプラットフォームで使用できます。

IronOcr.Languages.Chineseの内容

このパッケージには、.NET向けの352のOCR言語が含まれています:

  • 简体中文
  • 中国語簡体字ベスト
  • 簡体字中国語高速

    • ChineseSimplifiedVertical

(この場合、ブランド用語であるため、この名称は翻訳せず元のままの表記を保持します。)

  • 中国語(簡体字)垂直ベスト
  • 簡体中文縦書き高速
  • 中国繁体字
  • 繁体字中国語ベスト
  • ChineseTraditionalFast (簡体字から繁体字への高速変換)
  • 中国伝統縦書き
  • 中国語縦書きとして最適
  • ChineseTraditionalVerticalFast

ダウンロード

中国語言語パック [中文 (Zhōngwén)] を以下のリンクからダウンロードできます:

  • ダウンロード: Zip
  • NuGet でインストール

中国語用IronOCRの使用

C#プロジェクトを作成または開く

IronOCRを始めるには、まずC# .NETプロジェクトを作成する必要があります。 この目的のために Visual Studio 2022 を使用しています。 お客様のニーズに応じてバージョンを選択できます。 Visual Studioの最新版を使用することをお勧めします。 画像を選択するためのGUIインターフェースを作成します。 コンソールアプリケーションで画像の直接パスを指定することで、IronOCRを使用することもできます。 Visual Studio 2022でC#プロジェクトを作成するための手順は次のとおりです:

  • Visual Studio 2022を開きます。
  • 「新しいプロジェクトを作成」ボタンをクリックしてください。

    Chinese Ocr 1 related to C#プロジェクトを作成または開く
  • 検索バーに「Windows」と入力し、検索結果から「Windowsフォーム」アプリケーションを選択して「次へ」ボタンをクリックします。

    Chinese Ocr 2 related to C#プロジェクトを作成または開く
  • プロジェクトに名前を付けてください。 私はプロジェクトに"ChineseOCR"という名前を割り当てています。 名前を入力した後、「次へ」ボタンをクリックしてください。

    Chinese Ocr 3 related to C#プロジェクトを作成または開く
  • 次の画面で.NET Frameworkを選択してください。 プロジェクトのニーズに応じて .NET フレームワークを選択します。 このチュートリアルでは、.NET 5.0バージョンを選択しています。

    Chinese Ocr 4 related to C#プロジェクトを作成または開く
  • 選択した後、「Create」ボタンをクリックしてください。 それは簡単にVisual StudioでC# Windows Formプロジェクトを作成します。

    プロジェクトが作成され、現在、IronOCRライブラリで使用する準備が整いました。 既存のC#プロジェクトを使用することもできます。 プロジェクトを開き、IronOCRライブラリのインストールを開始します。 次のセクションでは、C# プロジェクトに IronOCR ライブラリをインストールする方法を検討します。

インストール

NuGet パッケージ マネージャーの使用

NuGet パッケージ マネージャーで IronOCR ライブラリをインストールするには、NuGet パッケージ マネージャーのインターフェースを開く必要があります。 以下の手順に従って、IronOCRライブラリをインストールします:

  • メインメニューから「ツール」をクリックし、ドロップダウンメニューから「NuGet パッケージ マネージャー」にカーソルを合わせ、「ソリューションの NuGet パッケージを管理」を選択してください。

    Chinese Ocr 5 related to NuGet パッケージ マネージャーの使用
  • これで NuGet パッケージ マネージャー インターフェイスが開きます。 ブラウズタブに移動し、「IronOCR Chinese」を検索してください。 検索結果から適切なパッケージを選択し、「インストール」ボタンをクリックしてインストールしてください。

    Chinese Ocr 6 related to NuGet パッケージ マネージャーの使用
  • ライブラリのインストールが開始されます。 インストール後、プロジェクトでIronOCRライブラリを使用できるようになります。

パッケージ マネージャー コンソールを使用する

コンソールを使用することは常に簡単な選択肢です。 IronOCRライブラリは、パッケージマネージャーコンソールを使用してもインストールできます。 次の手順に従ってIronOCRライブラリをインストールしてください:

  • Visual Studioでパッケージ マネージャー コンソールを開きます。 通常、Visual Studioの下部にあります。
  • 以下のコマンドをコンソールに入力してください:
Install-Package IronOCR.Languages.Chinese
  • ライブラリのインストール進行状況をコンソールで確認できます。 ライブラリが自動的にインストールされます。 インストール後、プロジェクトはIronOCRライブラリの準備が整います。

コード例:中国語のOCR

では、中国語用のIronOCRライブラリを実装するコードを書きます。 まず、画像ファイルを選択するためのフロントエンドを開発する必要があります。これをどのように行うか見てみましょう。

フロントエンドの開発

私たちはフロントデザインに「Toolbox」要素を使用します。 ボタン、ピクチャーボックス、リッチテキストボックス、および2つのラベルを作成します。 これらの要素をツールボックスからドラッグアンドドロップし、ウィンドウフォームに配置します。 これらの要素をスタイルで管理します。

ボタンは、PCから画像ファイルを選択するために使用されます。 ピクチャボックスは選択された画像ファイルを読み込み、リッチテキストボックスは出力テキストを表示します。 各要素のサイズは、必要に応じて調整できます。 最終的なフロントエンドデザインはこのようになります:

Chinese Ocr 7 related to フロントエンドの開発

このウィンドウはプロジェクトを実行すると表示されます。 ウィンドウの配置を画面の中央に設定しました。 この画面が中央に表示されます。

当社のフロントエンドの準備が整いました。 次に、ボタンのバックエンド機能を追加します。

IronOCRのバックエンドコード

まずコードで IronOCR を使用するために、IronOCR の名前空間をインポートする必要があります。 ファイルの一番上に次の行を記述してください:

using IronOCR;
using IronOCR;
Imports IronOCR
$vbLabelText   $csharpLabel

「Select Image」ボタンを使用して画像を選択し、Picture Boxに画像を読み込みます。 IronOCRは中国語簡体字の画像を処理し、出力テキストをリッチテキストボックスに表示します。 ボタンをダブルクリックして、ボタンの機能を追加しましょう。 以下のコードを記述して、指定された機能を追加してください:

private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();
    if (open.ShowDialog() == DialogResult.OK)
    {
        // display image in picture box  
        img_image.Image = new Bitmap(open.FileName);

        var Ocr = new IronTesseract();

Ocr.Language = OcrLanguage.ChineseTraditional;

using (var Input = new OcrInput(open.FileName))
        {
            var Result = Ocr.Read(Input);

            txt_output.Text = Result.Text;
        }
    }
}
private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();
    if (open.ShowDialog() == DialogResult.OK)
    {
        // display image in picture box  
        img_image.Image = new Bitmap(open.FileName);

        var Ocr = new IronTesseract();

Ocr.Language = OcrLanguage.ChineseTraditional;

using (var Input = new OcrInput(open.FileName))
        {
            var Result = Ocr.Read(Input);

            txt_output.Text = Result.Text;
        }
    }
}
Private Sub btn_image_Click(ByVal sender As Object, ByVal e As EventArgs)
	Dim open As New OpenFileDialog()
	If open.ShowDialog() = DialogResult.OK Then
		' display image in picture box  
		img_image.Image = New Bitmap(open.FileName)

		Dim Ocr = New IronTesseract()

Ocr.Language = OcrLanguage.ChineseTraditional

Using Input = New OcrInput(open.FileName)
			Dim Result = Ocr.Read(Input)

			txt_output.Text = Result.Text
End Using
	End If
End Sub
$vbLabelText   $csharpLabel

ユーザーがボタンをクリックすると、画像を選択するためのダイアログが表示されます。 ユーザーが画像を選択すると、それが自動的にピクチャーボックスに読み込まれます。 画像ボックスで画像を印刷するためにBitmap()を使用します。 その後、IronOCRは画像を中国語のテキストに変換します。 Ocrを設定します。 繁体字でテキストを認識するためのChineseTraditional 言語。 OCR(光学文字認識) 読み取り機能は、プロセスを読み取り、OCRの結果をResult変数に保存します。 テキストをPDF、テキスト、またはHTML形式で保存する必要がある場合、SaveAs関数を使用して任意の出力形式でファイルを保存します。IronOCRは複数の出力形式をサポートしています。

プロジェクトを実行

プロジェクトを実行する時間です。 Visual Studioで「実行」ボタンをクリックします。 この画面が表示されます。

Chinese Ocr 8 related to プロジェクトを実行

「画像を選択」ボタンをクリックしてください。 選択ファイルのダイアログボックスが開きます。 画像ファイルを選択して、Enterキーを押してください。

Chinese Ocr 9 related to プロジェクトを実行

それをピクチャボックスにロードし、自動的に画像をスキャンし、その出力をテキストボックスに表示します。

Chinese Ocr 10 related to プロジェクトを実行

以下は私たちが選択する画像の出力結果です。 IronOCRはPDFファイルの読み取りとスキャンもサポートしています。 PDFファイルの編集可能な形式を使用して、IronOCRを使用してテキストをスキャンして認識することができます。 これは異なる言語でも実行できます。 IronOCRは既存のPDFドキュメントを検索可能なPDFにすることができます。 IronOCRには、画像を鮮明に表示および理解しやすくするための多くの画像フィルターがあります。 以下はフィルターです:

  • Input.Binarize()
  • Input.Contrast()
  • Input.Deskew()
  • Input.DeNoise()
  • Input.Dilate()
  • Input.EnhanceResolution(300)

    これらの機能は、文字の視認性を高めます。 IronOCRは、これらの機能を使用して、検索可能なPDFをクリアにします。 これがどのように行われるか見てみましょう:

using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf")
    // clean up twisted pages
    Input.Deskew();
    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf")
    // clean up twisted pages
    Input.Deskew();
    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddPdf("scan.pdf") Input.Deskew()
	Dim Result = Ocr.Read(Input)
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using
$vbLabelText   $csharpLabel

ライセンス

IronOCRは開発用に無料です。 すべての機能を無料で積極的に利用できます。 IronOCRは、[無料トライアル](#trial-license" class="js-modal-open" data-modal-id="trial-license)も提供しており、支払いなしで本番環境で使用できます。 Iron Softwareは現在、5つのソフトウェア製品を2つの価格で提供する人気のあるパッケージを提供しています。 ソフトウェア製品2つの料金を一度お支払いいただくだけで、IronPDFやIronXLを含む5つの製品すべてを入手することができます。 ライセンスについての詳細は、このリンクからご覧いただけます。