C#と.NETで日本語OCR

This article was translated from English: Does it need improvement?
Translated
View the article in English

このドキュメントの他のバージョン:

  • 日本語で
  • 125以上のOCR言語

    IronOCRは、.NETコーダーが画像やPDFドキュメントから日本語を含む126ヶ国語のテキストを読み取ることを可能にするC#ソフトウェアコンポーネントです。 これは、特に.NET開発者向けに構築されたTesseractの高度なフォークであり、速度と精度の両方で他のTesseractエンジンを定期的に上回ります。

    これは多くの異なるハードウェア・プラットフォームでテストされており、ソフトウェアライブラリは最新バージョンの.NETに更新されました。 アプリやプロジェクトでOCRを実行する必要がある開発者にとって、良い選択です。 IronOCRは、アプリケーション開発者に使いやすいAPIを提供し、多くの言語に対応し、さまざまな方法でアプリケーションに統合することができます。 IronOCRは127のOCR言語をサポートしています。 それは素晴らしいOCRツールです。

IronOCR.Languages.Japaneseの内容

IronOCR Japaneseパッケージは、さまざまな操作を実行します。 このパッケージには、.NET用の286のOCR言語が含まれています:

  • 日本語アルファベット

    • 以下の内容を日本語に翻訳してください。

JapaneseAlphabetBest

日本語アルファベット速習

  • JapaneseVerticalAlphabet (日本語縦書きアルファベット)
  • ジャパニーズバーティカルアルファベットベスト

    • JapaneseVerticalAlphabetFast

ジャパニーズバーチカルアルファベットファスト

  • 日本語
  • 日本語ベスト
  • ジャパニーズファースト

    • JapaneseVertical (日本語の縦書き機能) is a feature of IronPDF that supports vertical text layout for Japanese documents. This functionality allows developers to create, modify, and render PDF documents with traditional Japanese vertical writing, maintaining the correct reading order from top to bottom and right to left.

IronPDFの特徴であるJapaneseVertical(日本語の縦書き機能)は、日本語の文書の縦書きレイアウトをサポートする機能です。この機能により、開発者はPDF文書を伝統的な日本語の縦書きで作成、修正、およびレンダリングでき、上から下へ、右から左への正しい読み順を保持します。

JapaneseVerticalBest

「* JapaneseVerticalFast」

ダウンロード

IronOCRの日本語言語パックをダウンロードできます[もちろん、以下の英語のテキストを日本語に翻訳します。


IronPDFは、高品質のPDF生成機能を可能にする強力なライブラリです。特に、C#やVB.NETなどの. NETアプリケーションのために設計されています。IronPDFを使用すると、HTMLからPDFへの変換、PDFファイルの編集、テキストと画像の抽出、ページの操作などが可能です。IronSoftwareでは、IronPDFが提供する豊富なAPIを通じて、開発者が簡単にPDFドキュメントを操作できる環境を提供しています。

IronOCRは、画像からテキストを抽出するための OCR (光学文字認識)ツールです。特に、手書きのメモやスキャンしたドキュメントから正確にテキストを抽出するために設計されています。IronOCRは、高度な画像処理アルゴリズムを使用しており、ノイズの多い画像や低解像度の画像からでも高精度の結果を提供します。

IronXLは、スプレッドシートの操作を簡単にするためのツールです。Excelファイルの読み取り、書き込み、編集をサポートしており、. NETアプリケーション内でのシームレスな統合が可能です。このライブラリを使用すると、データを効率的に管理し、スプレッドシートを使ったレポートやデータ分析を容易に行えます。

IronBarcodeは、バーコード生成と読み取りをサポートするライブラリです。多くのバーコード形式をサポートしており、1次元バーコードや2次元バーコード(QRコードなど)を簡単に生成および読み取ることができます。IronBarcodeを使用することで、在庫管理システムや商品の追跡システムなど、多岐にわたるアプリケーションに対応したバーコードソリューションを提供できます。

これらのツールはすべてIronSoftwareの一部であり、開発者が効率的かつ効果的にアプリケーションを構築するための強力なサポートを提供します。Iron Softwareの多様な製品ラインアップによって、プログラマーは簡単にドキュメントとデータの操作、バーコードの利用、画像認識などを実現できます。(にほんご)]以下のリンクから:

  • ダウンロード Zip (ジップ)
  • でインストール NuGet

    以下のセクションで IronOCR のインストールについて見ていきます。

日本語に対するIronOCRの使用

C#プロジェクトを作成または開く

最初に C# プロジェクトを作成しましょう。 私たちはVisual Studio 2022を使用してC#プロジェクトを作成していますが、お好みに応じて任意のバージョンを選択できます。 最新バージョンのVisual Studio をお勧めします。 以下の手順に従ってC#プロジェクトを作成してください:

  • Visual Studio 2022を開きます。
  • 「新しいプロジェクトを作成」ボタンをクリックしてください。

    Chinese Ocr 1 related to C#プロジェクトを作成または開く
  • 検索バーに「Windows」と入力し、検索結果から「Windowsフォーム」アプリケーションを選択して、「次へ」ボタンをクリックしてください。

    Chinese Ocr 2 related to C#プロジェクトを作成または開く
  • プロジェクトに名前を付けてください。 プロジェクトを「JapaneseOCR」と名付けました。名付けたら、「次へ」ボタンをクリックしてください。

    Japanese Ocr 1 related to C#プロジェクトを作成または開く
  • 次の画面で .NET Framework を選択してください。 プロジェクトのニーズに応じて .NET フレームワークを選択します。 このチュートリアルでは、.NET 5.0バージョンを選択しています。

    Chinese Ocr 4 related to C#プロジェクトを作成または開く
  • 選択した後、「Create」ボタンをクリックしてください。 それは簡単にVisual StudioでC# Windows Formプロジェクトを作成します。

    プロジェクトが作成されました! これで、IronOCRライブラリで使用できるようになりました。 既存のC#プロジェクトでも使用できます。 プロジェクトを開き、IronOCRライブラリのインストールを開始します。 以下のセクションでは、C#プロジェクトにIronOCRライブラリをインストールする方法を説明します。

インストール

今やIronOCRライブラリをプロジェクトにインストールする時が来ました。 IronOCR ライブラリは2つの異なる方法でインストールできます。 IronOCRをインストールするには、Package Manager ConsoleとNuGet Package Managerを使用できます。 両方の方法を見てみましょう。

NuGet パッケージ マネージャーの使用

NuGet パッケージ マネージャーで IronOCR ライブラリをインストールするには、NuGet パッケージ マネージャーのインターフェースを開く必要があります。 以下の手順に従って、IronOCRライブラリをインストールします:

  • メインメニューから「ツール」をクリックし、ドロップダウンメニューから「NuGet パッケージ マネージャー」にカーソルを合わせ、「ソリューションの NuGet パッケージを管理」を選択してください。

    Chinese Ocr 5 related to NuGet パッケージ マネージャーの使用
  • これで NuGet パッケージ マネージャー インターフェイスが開きます。 ブラウズタブに移動し、検索バーに「IronOCR Japanese」と入力してください。 検索結果から日本語のパッケージを選択し、「インストール」ボタンをクリックしてインストールを開始してください。

    Japanese Ocr 2 related to NuGet パッケージ マネージャーの使用
  • ライブラリのインストールを開始します。 インストール後、プロジェクトでIronOCRライブラリを使用できるようになります。

パッケージ マネージャー コンソールを使用する

パッケージ マネージャー コンソールを使用して IronOCR ライブラリをインストールします。 ライブラリのインストールはコンソールを使用して簡単に行えます。 コンソールを使用してIronOCRライブラリをインストールする方法を見てみましょう:

  • プロジェクトを開き、Visual Studioのパッケージマネージャーコンソールに移動します。 通常はVisual Studioの下部にあります。
  • IronOCR日本語OCR言語をインストールするために、コンソールで次のコマンドを入力してください: PM> Install-Package IronOCR.Languages.Japanese
  • インストールが開始され、コンソールに進行状況が表示されます。 インストール後、「ソリューション エクスプローラー」の「dependencies」セクションにIronOCRの依存関係が表示されます。

    インストール後、サードパーティーソフトウェアを使用せずにライブラリを利用できるようになります。 次に、プログラムのフロントエンドを設定する時が来ました。

コード例:OCRのための日本語

日本語用のIronOCRライブラリを実装するためのコードを書く時が来ました。 まず、画像ファイルを選択するためのフロントエンドを開発する必要があります。これをどのように行うか見てみましょう。

フロントエンドの開発

フロントエンド開発においては、Visual Studioの「Toolbox」を活用します。 それには、私たちがフロントエンドを設計するために使用できる多くの既成の要素があります。 識別のために、ピクチャボックス、リッチテキストボックス、ボタン、および2つのラベルを使用します。 これらの要素に対し、私たちのニーズに応じた適切な形状および優れたUIを提供します。 材料のサイズやプロパティをお好みに合わせて変更できます。出力テキストボックスは編集不可にし、ピクチャーボックスの画像プロパティを「ズーム」に設定しているため、すべての画像がピクチャーボックスに収まります。 私たちのフロントエンドはこのようになります:

Japanese Ocr 3 related to フロントエンドの開発

IronOCRのバックエンドコード:

フロントエンドの準備が整いました。 次は、実際に公開する時が来ました。しかしまず、コードでIronOCRを使用するためにIronOCR名前空間をインポートしなければなりません。 ファイルの一番上に次の行を記述してください:

using IronOCR;
using IronOCR;
Imports IronOCR
VB   C#

「画像を選択」ボタンは、日本語の画像を選択するために使用されます。 画像を選択すると、自動的にピクチャーボックスに読み込まれ、表示されます。 同時に、IronOCR はアップロードされた画像から日本語の単語認識を開始します。 プロセスが完了すると、出力はリッチテキストボックスに表示されます。 ボタンをダブルクリックして、これらの機能を追加しましょう。 こちらはボタン機能のコードの例です。 出力テキストも「txt」ファイルに保存されます。

コード例

private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();
    if (open.ShowDialog() == DialogResult.OK)
    {
        // display image in picture box  
        img_image.Image = new Bitmap(open.FileName);
        // image file path  
        //textBox1.Text = open.FileName;
        var Ocr = new IronTesseract();
        Ocr.Language = OcrLanguage.JapaneseBest;
        using (var Input = new OcrInput(open.FileName))
        {
            var Result = Ocr.Read(Input);

            txt_output.Text = Result.Text;

            Result.SaveAsTextFile("JapaneseText.txt");
        }
    }
}
private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();
    if (open.ShowDialog() == DialogResult.OK)
    {
        // display image in picture box  
        img_image.Image = new Bitmap(open.FileName);
        // image file path  
        //textBox1.Text = open.FileName;
        var Ocr = new IronTesseract();
        Ocr.Language = OcrLanguage.JapaneseBest;
        using (var Input = new OcrInput(open.FileName))
        {
            var Result = Ocr.Read(Input);

            txt_output.Text = Result.Text;

            Result.SaveAsTextFile("JapaneseText.txt");
        }
    }
}
Private Sub btn_image_Click(ByVal sender As Object, ByVal e As EventArgs)
	Dim open As New OpenFileDialog()
	If open.ShowDialog() = DialogResult.OK Then
		' display image in picture box  
		img_image.Image = New Bitmap(open.FileName)
		' image file path  
		'textBox1.Text = open.FileName;
		Dim Ocr = New IronTesseract()
		Ocr.Language = OcrLanguage.JapaneseBest
		Using Input = New OcrInput(open.FileName)
			Dim Result = Ocr.Read(Input)

			txt_output.Text = Result.Text

			Result.SaveAsTextFile("JapaneseText.txt")
		End Using
	End If
End Sub
VB   C#

この関数では、ユーザーがボタンをクリックすると、選択ダイアログボックスが表示され、日本語のテキストを含む画像を選択するようにユーザーに促します。 ユーザーが画像を選択すると、Bitmap()関数は画像パスを受け取り、それをピクチャボックスに読み込みます。 読み込み後、IronOCRライブラリを初期化し、言語を "Japanese" に設定します。 IronOCRは入力として画像パスを受け取り、スキャンを開始します。 スキャンが終了すると、出力テキストを「Result」変数に保存し、リッチテキストボックスに出力として表示します。 最後に、出力ファイルを "JapaneseText."** という名前の「txt」ファイルとして保存します。

プロジェクトを実行

コードを設計し、バックエンドを実装しました。 それでは、プログラムを実行して機能が正常に動作しているかどうかを確認しましょう。

  • 緑色の再生ボタンをクリックしてプロジェクトを実行してください。 オペレーティングシステムの画面の中央にこの画面が表示されます。

    Japanese Ocr 4 related to プロジェクトを実行
  • 「画像を選択」ボタンをクリックし、日本語テキストが含まれている画像を選択してください。

    Japanese Ocr 5 related to プロジェクトを実行
  • リッチテキストボックスに出力画像のテキストが表示されます。

    Japanese Ocr 6 related to プロジェクトを実行
  • OCR結果のテキストファイルは「JapaneseText」という名前で保存されます。
    Japanese Ocr 7 related to プロジェクトを実行

    IronOCRのOCR精度は優れています。

サマリー

このチュートリアルでは、IronOCRライブラリを使用して日本語テキストを処理する方法を学びました。 IronOCRについて詳しく知りたい場合は、こちらをクリックしてください リンク.

アイアン ソフトウェアに関する詳細については、こちらをクリックしてください。 リンク. IronOCRライブラリを試してみたい場合は、支払いなしで無料トライアルを有効にすることができます。 Iron Softwareは現在、5つのソフトウェア製品を2つの価格で購入できる特別オファーを提供しています。 詳細については、こちらをクリックしてください これ.