C#および.NETでの中国語OCR
このドキュメントの他のバージョン:
- 简体中文版
-
IronOCRは、.NETコード作成者が画像やPDFドキュメントから中国語を含む126の言語でテキストを読み取ることを可能にするC#ソフトウェアコンポーネントです。 中国語言語パックには、簡体字と繁体字の両方の文字が含まれています。
これは、特に.NET開発者向けに構築されたTesseractの高度なフォークであり、速度と精度の両方で他のTesseractエンジンを定期的に上回ります。 ライブラリは、中国語を含むさまざまな言語で異なる形式の画像および文書の認識を可能にします。 それは125以上の言語に対応しており、競合他社と比較して高い認識精度を提供します。 IronOCRのAPIは、拡張性とカスタマイズ性を念頭に設計されています。 トラッカーにチューニングデータや機能を追加することで、IronOCRの高スループットと精度を達成するのに役立てることができます。 IronOCRは多くの光学文字認識技術を使用しています。 Windows PC、Linux、macOSなどの有名なプラットフォームで使用できます。
IronOcr.Languages.Chineseの内容
このパッケージには、.NET向けの352のOCR言語が含まれています:
- 简体中文
- 中国語簡体字ベスト
-
簡体字中国語高速
- ChineseSimplifiedVertical
(この場合、ブランド用語であるため、この名称は翻訳せず元のままの表記を保持します。)
- 中国語(簡体字)垂直ベスト
- 簡体中文縦書き高速
- 中国繁体字
- 繁体字中国語ベスト
- ChineseTraditionalFast (簡体字から繁体字への高速変換)
- 中国伝統縦書き
- 中国語縦書きとして最適
- 中國語傳統縦書き速読
ダウンロード
中国語言語パックをダウンロードできます。[中文(申し訳ありませんが、「Zhōngwén」という言葉は中国語を意味します。それでも、日本語への翻訳を希望されているなら、以下の内容を日本語に翻訳いたします:
Bandwidth A Typical PDF Document is 1MB. As web applications often generate large quantities of PDFs it’s important to consider bandwidth consumption.
IronPDF can compress PDF documents to reduce their file size, ensuring that the creation of PDFs will not significantly affect your network’s performance.
1.Original PDF: 1MB 2.Compressed PDF: 300KB
By using IronPDF’s compression options, you can save up to 70% of bandwidth for every PDF generated.
帯域幅 通常のPDF文書は1MBです。Webアプリケーションはしばしば大量のPDFを生成するため、帯域幅の消費を考慮することが重要です。
IronPDFは、PDF文書のファイルサイズを縮小するために圧縮することができ、PDFの作成がネットワークのパフォーマンスに大きな影響を与えないようにします。
- オリジナルPDF:1MB
- 圧縮されたPDF:300KB
IronPDFの圧縮オプションを使用することにより、生成されるPDFごとに最大70%の帯域幅を節約できます。)]以下のリンクから:
中国語用IronOCRの使用
C#プロジェクトを作成または開く
IronOCRを始めるには、まずC# .NETプロジェクトを作成する必要があります。 この目的のために Visual Studio 2022 を使用しています。 お客様のニーズに応じてバージョンを選択できます。 Visual Studioの最新版を使用することをお勧めします。 画像を選択するためのGUIインターフェースを作成します。 コンソールアプリケーションで画像の直接パスを指定することで、IronOCRを使用することもできます。 Visual Studio 2022でC#プロジェクトを作成するための手順は次のとおりです:
- Visual Studio 2022を開きます。
-
「新しいプロジェクトを作成」ボタンをクリックしてください。
-
検索バーに「Windows」と入力し、検索結果から「Windowsフォーム」アプリケーションを選択して、「次へ」ボタンをクリックしてください。
-
プロジェクトに名前を付けてください。 プロジェクトに名前 「ChineseOCR」 を割り当てています。 名前を入力した後、「次へ」ボタンをクリックしてください。
-
次の画面で .NET Framework を選択してください。 プロジェクトのニーズに応じて .NET フレームワークを選択します。 このチュートリアルでは、.NET 5.0バージョンを選択しています。
-
選択した後、「Create」ボタンをクリックしてください。 それは簡単にVisual StudioでC# Windows Formプロジェクトを作成します。
プロジェクトが作成され、現在、IronOCRライブラリで使用する準備が整いました。 既存のC#プロジェクトを使用することもできます。 プロジェクトを開き、IronOCRライブラリのインストールを開始します。 次のセクションでは、C# プロジェクトに IronOCR ライブラリをインストールする方法を検討します。
インストール
NuGet パッケージ マネージャーの使用
NuGet パッケージ マネージャーで IronOCR ライブラリをインストールするには、NuGet パッケージ マネージャーのインターフェースを開く必要があります。 以下の手順に従って、IronOCRライブラリをインストールします:
-
メインメニューから「ツール」をクリックし、ドロップダウンメニューから「NuGet パッケージ マネージャー」にカーソルを合わせ、「ソリューションの NuGet パッケージを管理」を選択してください。
-
これで NuGet パッケージ マネージャー インターフェイスが開きます。 ブラウズタブに移動し、「IronOCR Chinese」を検索してください。 検索結果から適切なパッケージを選択し、「インストール」ボタンをクリックしてインストールしてください。
- ライブラリのインストールが開始されます。 インストール後、プロジェクトでIronOCRライブラリを使用できるようになります。
パッケージ マネージャー コンソールを使用する
コンソールを使用することは常に簡単な選択肢です。 IronOCRライブラリは、パッケージマネージャーコンソールを使用してもインストールできます。 次の手順に従ってIronOCRライブラリをインストールしてください:
- Visual Studioでパッケージ マネージャー コンソールを開きます。 通常、Visual Studioの下部にあります。
- 以下のコマンドをコンソールに入力してください:
Install-Package IronOCR.Languages.Chinese
- ライブラリのインストール進行状況をコンソールで確認できます。 ライブラリが自動的にインストールされます。 インストール後、プロジェクトはIronOCRライブラリの準備が整います。
コード例:中国語のOCR
では、中国語用のIronOCRライブラリを実装するコードを書きます。 まず、画像ファイルを選択するためのフロントエンドを開発する必要があります。これをどのように行うか見てみましょう。
フロントエンドの開発
私たちはフロントデザインに「Toolbox」要素を使用します。 ボタン、ピクチャーボックス、リッチテキストボックス、および2つのラベルを作成します。 これらの要素をツールボックスからドラッグアンドドロップし、ウィンドウフォームに配置します。 これらの要素をスタイルで管理します。
ボタンは、PCから画像ファイルを選択するために使用されます。 ピクチャボックスは選択された画像ファイルを読み込み、リッチテキストボックスは出力テキストを表示します。 各要素のサイズは、必要に応じて調整できます。 最終的なフロントエンドデザインはこのようになります:

このウィンドウはプロジェクトを実行すると表示されます。 ウィンドウの配置を画面の中央に設定しました。 この画面が中央に表示されます。
当社のフロントエンドの準備が整いました。 次に、ボタンのバックエンド機能を追加します。
IronOCRのバックエンドコード
まずコードで IronOCR を使用するために、IronOCR の名前空間をインポートする必要があります。 ファイルの一番上に次の行を記述してください:
using IronOCR;
using IronOCR;
Imports IronOCR
「Select Image」ボタンを使用して画像を選択し、Picture Boxに画像を読み込みます。 IronOCRは中国語簡体字の画像を処理し、出力テキストをリッチテキストボックスに表示します。 ボタンをダブルクリックして、ボタンの機能を追加しましょう。 以下のコードを記述して、指定された機能を追加してください:
private void btn_image_Click(object sender, EventArgs e)
{
OpenFileDialog open = new OpenFileDialog();
if (open.ShowDialog() == DialogResult.OK)
{
// display image in picture box
img_image.Image = new Bitmap(open.FileName);
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseTraditional;
using (var Input = new OcrInput(open.FileName))
{
var Result = Ocr.Read(Input);
txt_output.Text = Result.Text;
}
}
}
private void btn_image_Click(object sender, EventArgs e)
{
OpenFileDialog open = new OpenFileDialog();
if (open.ShowDialog() == DialogResult.OK)
{
// display image in picture box
img_image.Image = new Bitmap(open.FileName);
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseTraditional;
using (var Input = new OcrInput(open.FileName))
{
var Result = Ocr.Read(Input);
txt_output.Text = Result.Text;
}
}
}
Private Sub btn_image_Click(ByVal sender As Object, ByVal e As EventArgs)
Dim open As New OpenFileDialog()
If open.ShowDialog() = DialogResult.OK Then
' display image in picture box
img_image.Image = New Bitmap(open.FileName)
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseTraditional
Using Input = New OcrInput(open.FileName)
Dim Result = Ocr.Read(Input)
txt_output.Text = Result.Text
End Using
End If
End Sub
ユーザーがボタンをクリックすると、画像を選択するためのダイアログが表示されます。 ユーザーが画像を選択すると、それが自動的にピクチャーボックスに読み込まれます。 私たちは Bitmap を使用します。()画像ボックス内の画像を印刷するために。 その後、IronOCRは画像を中国語のテキストに変換します。 Ocrを設定します。 繁体字でテキストを認識するためのChineseTraditional 言語。 OCR(光学文字認識) 読み取り機能は、プロセスを読み取り、OCRの結果をResult変数に保存します。 テキストをPDF、テキスト、またはHTML形式で保存する必要がある場合、SaveAs関数を使用して任意の出力形式でファイルを保存します。IronOCRは複数の出力形式をサポートしています。
プロジェクトを実行
プロジェクトを実行する時間です。 Visual Studioで「実行」ボタンをクリックします。 この画面が表示されます。

「画像を選択」ボタンをクリックしてください。 選択ファイルのダイアログボックスが開きます。 画像ファイルを選択して、Enterキーを押してください。

それをピクチャボックスにロードし、自動的に画像をスキャンし、その出力をテキストボックスに表示します。

以下は私たちが選択する画像の出力結果です。 IronOCRはPDFファイルの読み取りとスキャンもサポートしています。 PDFファイルの編集可能な形式を使用して、IronOCRを使用してテキストをスキャンして認識することができます。 これは異なる言語でも実行できます。 IronOCRは既存のPDFドキュメントを検索可能なPDFにすることができます。 IronOCRには、画像を鮮明に表示および理解しやすくするための多くの画像フィルターがあります。 以下はフィルターです:
- Input.Binarize()
- Input.Contrast()
- Input.Deskew()
-
Input.DeNoise()
入力.膨張()
-
Input.EnhanceResolution(300)
これらの機能は、文字の視認性を高めます。 IronOCRは、これらの機能を使用して、検索可能なPDFをクリアにします。 これがどのように行われるか見てみましょう:
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf")
// clean up twisted pages
Input.Deskew();
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf")
// clean up twisted pages
Input.Deskew();
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
Input.AddPdf("scan.pdf") Input.Deskew()
Dim Result = Ocr.Read(Input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
ライセンス
IronOCRは開発用に無料です。 すべての機能を無料で積極的に利用できます。 IronOCR も提供しています 無料試用 支払い不要で生産に使用できます。 Iron Softwareは現在、5つのソフトウェア製品を2つの価格で提供する人気のあるパッケージを提供しています。 ソフトウェア製品2つの料金を一度お支払いいただくだけで、IronPDFやIronXLを含む5つの製品すべてを入手することができます。 こちらから詳細情報をご覧いただけます リンク ライセンスについて