C# および .NET での日本語 OCR

This article was translated from English: Does it need improvement?
Translated
View the article in English

このドキュメントの他のバージョン:

  • 日本語で
  • さらに125のOCR言語

    IronOCRは、.NETコーダーが画像やPDFドキュメントから日本語を含む126ヶ国語のテキストを読み取ることを可能にするC#ソフトウェアコンポーネントです。 これは、特に.NET開発者向けに構築されたTesseractの高度なフォークであり、速度と精度の両方で他のTesseractエンジンを定期的に上回ります。

    これは多くの異なるハードウェア・プラットフォームでテストされており、ソフトウェアライブラリは最新バージョンの.NETに更新されました。 アプリやプロジェクトでOCRを実行する必要がある開発者にとって、良い選択です。 IronOCRは、アプリケーション開発者に使いやすいAPIを提供し、多くの言語に対応し、さまざまな方法でアプリケーションに統合することができます。 IronOCRは127のOCR言語をサポートしています。 それは素晴らしいOCRツールです。

IronOCR.Languages.Japaneseの内容

IronOCR Japaneseパッケージは、さまざまな操作を実行します。 このパッケージには、.NET用の286のOCR言語が含まれています:

  • 日本語アルファベット

    • 以下の内容を日本語に翻訳してください。

JapaneseAlphabetBest

  • JapaneseAlphabetFast
  • JapaneseVerticalAlphabet
  • ジャパニーズバーティカルアルファベットベスト

    • JapaneseVerticalAlphabetFast

ジャパニーズバーチカルアルファベットファスト

  • 日本語
  • 日本語ベスト
  • JapaneseFast

    • JapaneseVertical (日本語の縦書き機能) is a feature of IronPDF that supports vertical text layout for Japanese documents. This functionality allows developers to create, modify, and render PDF documents with traditional Japanese vertical writing, maintaining the correct reading order from top to bottom and right to left.

IronPDFの特徴であるJapaneseVertical(日本語の縦書き機能)は、日本語の文書の縦書きレイアウトをサポートする機能です。この機能により、開発者はPDF文書を伝統的な日本語の縦書きで作成、修正、およびレンダリングでき、上から下へ、右から左への正しい読み順を保持します。

  • JapaneseVerticalBest
  • JapaneseVerticalFast

ダウンロード

次のリンクからIronOCR日本語言語パック[日本語 (にほんご)]をダウンロードできます:

  • Zip としてダウンロード
  • NuGet でインストール

    以下のセクションで IronOCR のインストールについて見ていきます。

日本語に対するIronOCRの使用

C#プロジェクトを作成または開く

最初に C# プロジェクトを作成しましょう。 私たちはVisual Studio 2022を使用してC#プロジェクトを作成していますが、お好みに応じて任意のバージョンを選択できます。 最新バージョンのVisual Studio をお勧めします。 以下の手順に従ってC#プロジェクトを作成してください:

  • Visual Studio 2022を開きます。
  • 「新しいプロジェクトを作成」ボタンをクリックしてください。

    Chinese Ocr 1 related to C#プロジェクトを作成または開く
  • 検索バーに「Windows」と入力し、検索結果から「Windowsフォーム」アプリケーションを選択して「次へ」ボタンをクリックします。

    Chinese Ocr 2 related to C#プロジェクトを作成または開く
  • プロジェクトに名前を付けてください。 プロジェクトを「JapaneseOCR」と名付けました。名付けたら、「次へ」ボタンをクリックしてください。

    Japanese Ocr 1 related to C#プロジェクトを作成または開く
  • 次の画面で.NET Frameworkを選択してください。 プロジェクトのニーズに応じて .NET フレームワークを選択します。 このチュートリアルでは、.NET 5.0バージョンを選択しています。

    Chinese Ocr 4 related to C#プロジェクトを作成または開く
  • 選択した後、「Create」ボタンをクリックしてください。 それは簡単にVisual StudioでC# Windows Formプロジェクトを作成します。

    プロジェクトが作成されました! これで、IronOCRライブラリで使用できるようになりました。 既存のC#プロジェクトでも使用できます。 プロジェクトを開き、IronOCRライブラリのインストールを開始します。 以下のセクションでは、C#プロジェクトにIronOCRライブラリをインストールする方法を説明します。

インストール

今やIronOCRライブラリをプロジェクトにインストールする時が来ました。 IronOCR ライブラリは2つの異なる方法でインストールできます。 IronOCRをインストールするには、Package Manager ConsoleとNuGet Package Managerを使用できます。 両方の方法を見てみましょう。

NuGet パッケージ マネージャーの使用

NuGet パッケージ マネージャーで IronOCR ライブラリをインストールするには、NuGet パッケージ マネージャーのインターフェースを開く必要があります。 以下の手順に従って、IronOCRライブラリをインストールします:

  • メインメニューから「ツール」をクリックし、ドロップダウンメニューから「NuGet パッケージ マネージャー」にカーソルを合わせ、「ソリューションの NuGet パッケージを管理」を選択してください。

    Chinese Ocr 5 related to NuGet パッケージ マネージャーの使用
  • これで NuGet パッケージ マネージャー インターフェイスが開きます。 ブラウズタブに移動し、検索バーに「IronOCR Japanese」と入力してください。 検索結果から日本語のパッケージを選択し、「インストール」ボタンをクリックしてインストールを開始してください。

    Japanese Ocr 2 related to NuGet パッケージ マネージャーの使用
  • ライブラリのインストールを開始します。 インストール後、プロジェクトでIronOCRライブラリを使用できるようになります。

パッケージ マネージャー コンソールを使用する

パッケージ マネージャー コンソールを使用して IronOCR ライブラリをインストールします。 ライブラリのインストールはコンソールを使用して簡単に行えます。 コンソールを使用してIronOCRライブラリをインストールする方法を見てみましょう:

  • プロジェクトを開き、Visual Studioのパッケージマネージャーコンソールに移動します。 通常はVisual Studioの下部にあります。
  • IronOCRの日本語OCR言語をインストールするには、コンソールに次のコマンドを入力してください:PM> Install-Package IronOCR.Languages.Japanese
  • インストールが開始され、コンソールに進行状況が表示されます。 インストール後、「ソリューション エクスプローラー」の「dependencies」セクションにIronOCRの依存関係が表示されます。

    インストール後、サードパーティーソフトウェアを使用せずにライブラリを利用できるようになります。 次に、プログラムのフロントエンドを設定する時が来ました。

コード例:OCRのための日本語

日本語用のIronOCRライブラリを実装するためのコードを書く時が来ました。 まず、画像ファイルを選択するためのフロントエンドを開発する必要があります。これをどのように行うか見てみましょう。

フロントエンドの開発

フロントエンド開発においては、Visual Studioの「Toolbox」を活用します。 それには、私たちがフロントエンドを設計するために使用できる多くの既成の要素があります。 識別のために、ピクチャボックス、リッチテキストボックス、ボタン、および2つのラベルを使用します。 これらの要素に対し、私たちのニーズに応じた適切な形状および優れたUIを提供します。 材料のサイズやプロパティをお好みに合わせて変更できます。出力テキストボックスは編集不可にし、ピクチャーボックスの画像プロパティを「ズーム」に設定しているため、すべての画像がピクチャーボックスに収まります。 私たちのフロントエンドはこのようになります:

Japanese Ocr 3 related to フロントエンドの開発

IronOCRのバックエンドコード:

フロントエンドの準備が整いました。 次は、実際に公開する時が来ました。しかしまず、コードでIronOCRを使用するためにIronOCR名前空間をインポートしなければなりません。 ファイルの一番上に次の行を記述してください:

using IronOCR;
using IronOCR;
Imports IronOCR
$vbLabelText   $csharpLabel

「画像を選択」ボタンは、日本語の画像を選択するために使用されます。 画像を選択すると、自動的にピクチャーボックスに読み込まれ、表示されます。 同時に、IronOCR はアップロードされた画像から日本語の単語認識を開始します。 プロセスが完了すると、出力はリッチテキストボックスに表示されます。 ボタンをダブルクリックして、これらの機能を追加しましょう。 こちらはボタン機能のコードの例です。 出力テキストも「txt」ファイルに保存されます。

コード例

private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();
    if (open.ShowDialog() == DialogResult.OK)
    {
        // display image in picture box  
        img_image.Image = new Bitmap(open.FileName);
        // image file path  
        //textBox1.Text = open.FileName;
        var Ocr = new IronTesseract();
        Ocr.Language = OcrLanguage.JapaneseBest;
        using (var Input = new OcrInput(open.FileName))
        {
            var Result = Ocr.Read(Input);

            txt_output.Text = Result.Text;

            Result.SaveAsTextFile("JapaneseText.txt");
        }
    }
}
private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();
    if (open.ShowDialog() == DialogResult.OK)
    {
        // display image in picture box  
        img_image.Image = new Bitmap(open.FileName);
        // image file path  
        //textBox1.Text = open.FileName;
        var Ocr = new IronTesseract();
        Ocr.Language = OcrLanguage.JapaneseBest;
        using (var Input = new OcrInput(open.FileName))
        {
            var Result = Ocr.Read(Input);

            txt_output.Text = Result.Text;

            Result.SaveAsTextFile("JapaneseText.txt");
        }
    }
}
Private Sub btn_image_Click(ByVal sender As Object, ByVal e As EventArgs)
	Dim open As New OpenFileDialog()
	If open.ShowDialog() = DialogResult.OK Then
		' display image in picture box  
		img_image.Image = New Bitmap(open.FileName)
		' image file path  
		'textBox1.Text = open.FileName;
		Dim Ocr = New IronTesseract()
		Ocr.Language = OcrLanguage.JapaneseBest
		Using Input = New OcrInput(open.FileName)
			Dim Result = Ocr.Read(Input)

			txt_output.Text = Result.Text

			Result.SaveAsTextFile("JapaneseText.txt")
		End Using
	End If
End Sub
$vbLabelText   $csharpLabel

この関数では、ユーザーがボタンをクリックすると、選択ダイアログボックスが表示され、日本語のテキストを含む画像を選択するようにユーザーに促します。 ユーザーが画像を選択すると、Bitmap() 関数が画像パスを取得し、それをピクチャボックスに読み込みます。 読み込みが完了したら、IronOCRライブラリを初期化し、言語を「日本語」に設定します。 IronOCRは入力として画像パスを受け取り、スキャンを開始します。 スキャンが終了すると、出力テキストを「Result」変数に保存し、リッチテキストボックスに出力として表示します。 最後に、出力ファイルを"JapaneseText"という名前の"txt"ファイルとして保存します。

プロジェクトを実行

コードを設計し、バックエンドを実装しました。 それでは、プログラムを実行して機能が正常に動作しているかどうかを確認しましょう。

  • 緑色の再生ボタンをクリックしてプロジェクトを実行してください。 オペレーティングシステムの画面の中央にこの画面が表示されます。

    Japanese Ocr 4 related to プロジェクトを実行
  • 「画像を選択」ボタンをクリックし、日本語テキストが含まれている画像を選択してください。

    Japanese Ocr 5 related to プロジェクトを実行
  • リッチテキストボックスに出力画像のテキストが表示されます。

    Japanese Ocr 6 related to プロジェクトを実行
  • OCR結果のテキストファイルは「JapaneseText」という名前で保存されます。
    Japanese Ocr 7 related to プロジェクトを実行

    IronOCRのOCR精度は優れています。

サマリー

このチュートリアルでは、IronOCRライブラリを使用して日本語テキストを処理する方法を学びました。 IronOCRについて詳しく知りたい場合は、このリンクをクリックしてください。

Iron Softwareに関する詳細情報は、このリンクをクリックしてください。 IronOCRライブラリを試してみたい場合は、支払いなしで無料トライアルを有効にすることができます。 Iron Softwareは現在、5つのソフトウェア製品を2つの価格で購入できる特別オファーを提供しています。 詳細については、こちらをクリックしてください。