C#のTesseractで複数の言語を使用して多言語テキスト抽出・文字認識を行う方法
IronOCRはTesseractエンジンを使用し、1行のコードで主言語と副言語を設定することにより、多言語のドキュメントからの文字起こし・テキスト抽出を可能にし、シームレスな多言語文字認識処理のための125以上の言語パックをサポートします。
はじめに
IronOCRは、信頼性の高いOCRツールとしてTesseract Engineを使用し、様々な言語やスクリプトからのテキスト抽出を提供します。
この記事では、IronOCRがTesseractを通してどのように多言語のテキストを扱っているかをご紹介します。 多言語OCRソリューションの実装方法を学び、IronOCRの機能とTesseractエンジンとの統合を理解します。
最新のアプリケーションでは、複数の言語で文書を処理することが不可欠です。 国際的なビジネス文書、多言語ウェブサイト、グローバルコミュニケーションプラットフォームでは、言語の壁を越えた正確なテキスト抽出が求められます。 IronOCRは、Tesseractの広範な言語サポートと統合することで、複数のスクリプトや文字セットを含むドキュメントからのテキスト抽出を可能にし、このニーズに応えます。
クイックスタート: IronOCRを使用して複数の言語のテキストを認識する
IronOCRを一次言語で設定し、多言語文書や画像からテキストを抽出するために一行で二次言語を追加します。
最小限のワークフロー(5ステップ)
- 複数の言語を読むためのC#ライブラリをダウンロードする
- 読み取りのためのPDF文書や画像を準備します
- NuGet経由で追加の言語パックをインストールする
- `AddSecondaryLanguage`メソッドを使用して、必要な言語を有効にします。
- デフォルトの言語を変更するには、**`Language`**プロパティを設定します。
多言語のPDFをIronOCRで読むには?
IronOcrは125の言語パックを提供しています; デフォルトでは英語のみインストールされます。 NuGetから他の言語をダウンロードしてください。 利用可能なすべての言語パックはこちらをご覧ください。
複数の言語を含むPDFには、特定のOCRエンジン設定が必要です。 IronOCRは、文書を処理する前に主言語と副言語を指定することができ、異なるスクリプトや文字セット間で最適な認識精度を保証します。
PDF抽出で使用できる言語はどれですか?
次の例は、IronOcrで複数の言語を使用してPDFファイルからテキストを抽出する方法を示しています。
:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);
// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);
// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)
' Add PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)
' Output extracted text to console
Console.WriteLine(result.Text)
複雑な PDF 処理シナリオについては、PDF OCR テキスト抽出のガイドを参照してください。
言語の優先順位はOCR結果にどのように影響しますか?
AddSecondaryLanguage メソッドを使用して、任意の数の二次言語を追加します。 言語が追加されると、スピードとパフォーマンスに影響する可能性があることに注意してください。 言語の優先順位は、追加された順番によります。
言語の優先順位を理解することは、多言語ドキュメントを処理する上で非常に重要です。 OCRエンジンはまず、主要言語の文字セットと文字の照合を試みます。 一次言語のパターンに一致しない文字がある場合は、二次言語を参照します。
最適なパフォーマンスのために
- 文書内で最も一般的な言語をプライマリとして設定します。
- ドキュメントに頻度順に二次言語を追加
- 二次言語は、ユースケースに必要なものに限定してください。
複数の言語を使用する高性能なアプリケーションについては、処理速度を最適化するための Fast OCR Configuration ガイドを参照してください。
Tesseractで多言語画像を処理するには?
デフォルトの主要言語は英語です。 To change it, set the Language property to your desired language, then add secondary languages as needed.
多言語テキストを含む画像は、慎重な設定が必要です。 PDFとは異なり、画像には様々なテキスト方向、異なるフォント、混合スクリプトが含まれる可能性があります。IronOCRのTesseractインテグレーションは、これらのシナリオに対応する包括的な言語設定オプションを提供します。
デフォルトの言語設定はいつ変更すべきですか?
デフォルト言語の変更
- ドキュメントの大半は英語以外の言語です。
- 特定の地域または国の文書の処理
- 英語以外のコンテンツを扱うユーザーを対象としたアプリケーション
- 特定の文字セットに対する認識精度の最適化
以下は、完全な多言語画像処理の例です:
// Example code for reading multi-language image with IronOCR
using IronOcr;
// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();
:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
// Example code for reading multi-language image with IronOCR
using IronOcr;
// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();
using IronOcr;
using System;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);
// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);
// Output extracted text to console
Console.WriteLine(result.Text);
' Example code for reading multi-language image with IronOCR
Imports IronOcr
' Initialize IronTesseract OCR engine
Private Ocr = New IronTesseract()
Imports System
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese)
' Add image
Dim imageInput = New OcrImageInput("example.png")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(imageInput)
' Output extracted text to console
Console.WriteLine(result.Text)
カスタム言語や特殊なフォントについては、カスタム言語ファイルの使用のチュートリアルを参照してください。
多言語OCRにはどのような結果が期待できますか?
適切な設定により、次のような結果が得られます:

多言語OCRの結果品質は、いくつかの要因に左右されます:
1.画質:解像度が高い(300+ DPI)ほど、より良い結果が得られます。 DPI 設定ガイドを参照してください。
2.テキストの明確さ:アーチファクトのない、明瞭で明確に定義されたテキストは、より正確な認識をもたらします。
3.言語設定:主言語と副言語を適切に設定することで、正しい文字認識パターンを保証します。
4.前処理:適切なフィルタは結果を大幅に改善します。 強化テクニックについては、画像補正フィルターガイドを参照してください。
多言語 OCR のキーポイントは何ですか?
IronOCRはTesseractエンジンを使用し、多言語ドキュメントからテキストを効果的に抽出します。 多言語のテキストを読むという複雑な作業に対応し、汎用性の高いソリューションを提供します。 様々な言語のPDFを処理する場合でも、多言語の画像コンテンツを扱う場合でも、IronOCRは言語間のテキストの認識と抽出を簡素化します。
多言語テキスト抽出のためのIronOCRの主な利点:
- 幅広い言語サポート:NuGet パッケージ経由で 125 以上の国際的な OCR 言語をサポートします。
- 柔軟な設定: 主言語および副言語設定のためのシンプルなAPI
- 高精度:Tesseract 5の高度な認識アルゴリズムを使用
- パフォーマンスの最適化: 組み込みのマルチスレッドサポート
- クロスプラットフォーム互換性:Windows、Linux、macOSで動作
IronOCRは、多言語OCR実装のための強力な機能と使いやすさを組み合わせた包括的なソリューションを提供します。 文書管理システム、翻訳ツール、または多言語テキスト抽出を必要とするあらゆるアプリケーションを、成功に必要な柔軟性と信頼性で構築します。
NuGetからIronOCRをダウンロードし、ドキュメントとサンプルを見て、多言語OCRプロジェクトを始めてください。 特定のユースケースや高度なシナリオについては、トラブルシューティングガイドが最適な結果を得るための洞察を提供します。
よくある質問
複数の言語を含む文書でOCRを実行するにはどうすればよいですか?
IronOCRはたった1行のコードで多言語OCRを設定することができます。Languageプロパティを使って一次言語を設定し、AddSecondaryLanguageメソッドを使って二次言語を追加します。これによりIronOCRは複数のスクリプトや文字セットを含む文書から同時に正確にテキストを抽出することができる。
テキスト抽出に対応している言語は?
IronOCRはTesseractエンジンとの統合により125以上の言語パックをサポートしています。デフォルトでは英語がインストールされていますが、NuGetから追加の言語パックをダウンロードすることで、スペイン語、フランス語からアラビア語、中国語、日本語、その他多くの言語のOCR機能を有効にすることができます。
OCR処理に二次言語を追加するにはどうすればよいですか?
追加言語を有効にするにはIronOCRのAddSecondaryLanguageメソッドを使用します。例えば: new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French).この設定により、IronOCRは同じドキュメント内でスペイン語とフランス語の両方のテキストを認識することができます。
多言語PDFからテキストを抽出できますか?
はい、IronOCRは複数の言語を含むPDFを処理することができます。処理前にOCRエンジンに主言語と副言語を設定するだけです。IronOCRはPDF内の異なるスクリプトや文字セットを自動的に処理し、文書内のすべての言語で正確なテキスト抽出を保証します。
言語パックを別途インストールする必要がありますか?
IronOCRにはデフォルトで英語が含まれていますが、追加の言語パックをNuGet経由でインストールする必要があります。各言語パックにはIronOCRのTesseractエンジンがその言語のテキストを認識するために必要なデータが含まれています。利用可能な全ての言語パックはIronOCRの言語ページから閲覧、ダウンロードすることができます。
多言語OCRの最小限のワークフローとは?
最小限のワークフローは以下の5ステップです:1) IronOCRライブラリのダウンロード、2) PDFまたは画像ドキュメントの準備、3) NuGet経由で必要な言語パックのインストール、4) AddSecondaryLanguageメソッドを使用して追加言語を有効化、5) 主要言語のLanguageプロパティの設定。このセットアップにより、正確な多言語テキスト抽出が可能になります。

