C#と.NETでの中国語OCR

This article was translated from English: Does it need improvement?
Translated
View the article in English

このドキュメントの他のバージョン:

*簡体字中国語版

IronOCR は、.NET コーダーが中国語を含む 126 の言語で画像や PDF ドキュメントからテキストを読み取ることができる C# ソフトウェア コンポーネントです。 中国語言語パックには、中国語(簡体字)と中国語(繁体字)の両方の文字が含まれています。

これは、.NET 開発者専用に構築された Tesseract の高度なフォークであり、速度と精度の両方において他の Tesseract エンジンを常に上回っています。 このライブラリでは、中国語を含むさまざまな言語のさまざまな形式の画像や文書を認識できます。 125 以上の言語をサポートし、競合製品と比較して高い認識精度を提供します。 IronOCR の API は、拡張性とカスタマイズを考慮して設計されています。 チューニング データや機能をトラッカーに追加することで、IronOCR は高いスループットと精度を実現できます。 IronOCR は多くの光学文字認識技術を使用します。 Windows PC、Linux、macOS、その他の有名なプラットフォームで使用できます。

Ironオクル。Languages.Chinese の内容

このパッケージには、.NET 用の 352 個の OCR 言語が含まれています。

  • 中国語(簡体字)
  • 中国語(簡体字)ベスト
  • 中国語(簡体字)高速
  • 中国語(簡体字)縦書き
  • 中国語(簡体字)縦書きベスト
  • 中国語(簡体字)縦書き高速
  • 中国語(繁体字)
  • 中国語(繁体字)ベスト
  • 中国語(繁体字、高速)
  • 中国語(繁体字)縦書き *中国語繁体字縦向きベスト
  • 中国語(繁体字)縦書き高速

ダウンロード

中国語言語パック [中文 (Zhōngwén)] は次のリンクからダウンロードできます。

  • Zip形式でダウンロード
  • NuGetでインストール

中国語にIronOCRを使用する

C# プロジェクトを作成または開く

IronOCR を開始するには、C# .NET プロジェクトを作成する必要があります。 この目的のために Visual Studio 2022 を使用しています。 ニーズに応じてバージョンを選択できます。 スムーズなエクスペリエンスを得るには、最新バージョンの Visual Studio をお勧めします。 画像を選択するための GUI インターフェースを作成します。 画像の直接パスを指定することにより、コンソール アプリケーションで IronOCR を使用することもできます。 Visual Studio 2022 で C# プロジェクトを作成するには、次の手順を実行します。

  • Visual Studio 2022 を開きます。
  • "新しいプロジェクトを作成"ボタンをクリックします。
Chinese Ocr 1 related to C# プロジェクトを作成または開く

検索バーに"Windows"と入力し、検索結果から"Windows フォーム" アプリケーションを選択して*、"次へ"ボタンをクリックします。

Chinese Ocr 2 related to C# プロジェクトを作成または開く
  • プロジェクトに名前を付けます。 プロジェクトに"ChineseOCR"という名前を割り当てます。 名前の後、"次へ"ボタンをクリックします。
Chinese Ocr 3 related to C# プロジェクトを作成または開く

次の画面で .NET Framework*を選択します。 プロジェクトのニーズに応じて .NET フレームワークを選択します。 このチュートリアルでは、.NET 5.0 バージョンを選択します。

Chinese Ocr 4 related to C# プロジェクトを作成または開く

※選択後、"作成"ボタンをクリックします。 Visual Studio で C# Windows フォーム プロジェクトを簡単に作成できます。

プロジェクトが作成され、IronOCR ライブラリで使用する準備が整いました。 既存の C# プロジェクトを使用することもできます。 プロジェクトを開き、IronOCR ライブラリのインストールを開始します。 次のセクションでは、C# プロジェクトに IronOCR ライブラリをインストールする方法について説明します。

インストール

NuGetパッケージマネージャーを使用

NuGet パッケージ マネージャーを使用して IronOCR ライブラリをインストールするには、NuGet パッケージ マネージャー インターフェイスを開く必要があります。 IronOCR ライブラリをインストールするには、次の手順に従います。

  • メイン メニューから [ツール] をクリックし、ドロップダウン メニューから [NuGet パッケージ マネージャー] にマウスを移動して、[ソリューションの NuGet パッケージ マネージャーの管理] を選択します。
Chinese Ocr 5 related to NuGetパッケージマネージャーを使用
  • これにより、NuGet パッケージ マネージャー インターフェイスが開きます。 参照タブに移動して、IronOCR Chinese を検索します。 検索結果から適切なパッケージを選択し、"インストール"ボタンをクリックしてインストールします。
Chinese Ocr 6 related to NuGetパッケージマネージャーを使用
  • ライブラリのインストールが開始されます。 インストール後、プロジェクトで IronOCR ライブラリを使用できるようになります。

パッケージマネージャーコンソールの使用

コンソールを使用するのは常に簡単なオプションです。 パッケージ マネージャー コンソールを使用して IronOCR ライブラリをインストールすることもできます。 IronOCR ライブラリをインストールするには、次の手順に従ってください。

  • Visual Studio でパッケージ マネージャー コンソールを開きます。 通常、Visual Studio の下部にあります。
  • コンソールに次のコマンドを入力します。

    Install-Package IronOCR.Languages.Chinese
  • コンソールにライブラリのインストールの進行状況が表示されます。 ライブラリが自動的にインストールされます。 インストール後、プロジェクトは IronOCR ライブラリに対応できるようになります。

コード例: 中国語の OCR

ここで、中国語用の IronOCR ライブラリを実装するためのコードを記述します。 まず、画像ファイルを選択するためのフロントエンドを開発する必要があります。その方法を見てみましょう。

フロントエンドの開発

"ツールボックス"要素を使用してフロントをデザインします。 ボタン、画像ボックス、リッチ テキスト ボックス、および 2 つのラベルを作成します。 これらの要素をツールボックスからドラッグ アンド ドロップし、Windows フォームに配置します。 私たちはこれらの要素をスタイリッシュに管理します。

このボタンはPCから画像ファイルを選択するために使用します。 Picture Box は選択した画像ファイルを読み込み、Rich Textbox は出力テキストを表示します。 必要に応じて各要素のサイズを調整できます。 最終的なフロントエンドのデザインは次のようになります。

Chinese Ocr 7 related to フロントエンドの開発

プロジェクトを実行すると、このウィンドウがポップアップ表示されます。 ウィンドウの配置を画面の中央に揃えるように設定しました。 つまり、この画面が中央に表示されます。

フロントエンドが準備完了です。 次に、ボタンのバックエンド機能を追加します。

IronOCRのバックエンドコード

コード内で IronOCR 名前空間を使用するには、まずそれをインポートする必要があります。 ファイルの先頭に次の行を書き込みます。

using IronOCR;
using IronOCR;
$vbLabelText   $csharpLabel

画像を選択し、画像ボックスに読み込むには、"画像を選択"ボタンを使用します。 IronOCR は中国語の簡体字テキスト画像を処理し、出力テキストをリッチ テキスト ボックスに表示します。 ボタンをダブルクリックしてボタンの機能を追加してみましょう。 説明した機能を追加するには、次のコード行を記述します。

private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();
    if (open.ShowDialog() == DialogResult.OK)
    {
        // display image in picture box  
        img_image.Image = new Bitmap(open.FileName);

        var Ocr = new IronTesseract();

オクル。Language = OcrLanguage.ChineseTraditional;

using (var Input = new OcrInput(open.FileName))
        {
            var Result = オクル。Read(Input);

            txt_output.Text = Result.Text;
        }
    }
}
private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();
    if (open.ShowDialog() == DialogResult.OK)
    {
        // display image in picture box  
        img_image.Image = new Bitmap(open.FileName);

        var Ocr = new IronTesseract();

オクル。Language = OcrLanguage.ChineseTraditional;

using (var Input = new OcrInput(open.FileName))
        {
            var Result = オクル。Read(Input);

            txt_output.Text = Result.Text;
        }
    }
}
$vbLabelText   $csharpLabel

ユーザーがボタンをクリックすると、画像を選択するためのダイアログが表示されます。 ユーザーが画像を選択すると、その画像は自動的に画像ボックスに読み込まれます。 画像ボックスに画像を印刷するにはBitmap()を使用します。 その後、IronOCR は画像を中国語のテキストに変換します。 Ocrを設定します。 繁体字中国語のテキストを認識するには、"言語"を"中国語繁体字"に設定します。 オクル。 読み取り関数はプロセスを読み取り、OCR の結果を Result 変数に保存します。 テキストを PDF、テキスト、または HTML 形式で保存する必要がある場合は、SaveAs 関数を使用して、任意の出力形式でファイルを保存します。IronOCR は複数の出力形式をサポートしています。

プロジェクトの実行

さて、プロジェクトを実行します。 Visual Studio の [実行] ボタンをクリックします。 この画面が画面上に表示されます。

Chinese Ocr 8 related to プロジェクトの実行

"画像を選択"ボタンをクリックします。 ファイルの選択ダイアログボックスが開きます。 画像ファイルを選択し、Enter キーを押します。

Chinese Ocr 9 related to プロジェクトの実行

画像ボックスに読み込まれ、画像が自動的にスキャンされ、出力がテキスト ボックスに表示されます。

Chinese Ocr 10 related to プロジェクトの実行

これは選択した画像からの出力です。 IronOCR は PDF ファイルの読み取りとスキャンもサポートしています。 編集可能な形式の PDF ファイルを使用して、IronOCR でテキストをスキャンおよび認識できます。 これは異なる言語でも実行できます。 IronOCR は既存の PDF ドキュメントを検索可能な PDF に変換できます。 IronOCR には、画像を明確に表示して理解できるようにするための画像フィルターが多数あります。 フィルターは次のとおりです。

  • 入力.バイナリ化()
  • 入力.コントラスト()
  • Input.Descew()
  • Input.DeNoise()
  • 入力.拡張()
  • 入力.解像度向上(300)

これらの機能はすべて、文字の視認性を高めます。 IronOCR はこれらの機能を使用して、PDF をクリアし、検索可能な PDF を作成します。 これがどのように実行されるかを見てみましょう。

using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf")
    // clean up twisted pages
    Input.Deskew();
    var Result = オクル。Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf")
    // clean up twisted pages
    Input.Deskew();
    var Result = オクル。Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
$vbLabelText   $csharpLabel

ライセンス

  • PDFs すべての機能を無料でご利用いただけます。 IronOCR では、支払いの必要なしに本番環境での無料トライアルも提供しています。 Iron Software は現在、わずか 2 つの価格で 5 つのソフトウェア製品スイートを提供するという人気のプランも提供しています。 2 つのソフトウェア製品の料金を 1 回支払うだけで、IronPDF と IronXL を含む 5 つの製品すべてを入手できます。 ライセンスに関する詳しい情報は、このリンクからご覧いただけます。