Tesseractで複数の言語を使用する方法

C#のTesseractで複数の言語を使用する方法</#35;

This article was translated from English: Does it need improvement?
Translated
View the article in English

IronOCRはTesseractエンジンを使用し、1行のコードで主言語と副言語を設定することにより、多言語のドキュメントからのテキスト抽出を可能にし、シームレスな多言語OCR処理のための125以上の言語パックをサポートします。

はじめに

IronOCRは、信頼性の高いOCRツールとしてTesseract Engineを使用し、様々な言語やスクリプトからのテキスト抽出を提供します。

この記事では、IronOCRがTesseractを通してどのように多言語のテキストを扱っているかをご紹介します。 多言語OCRソリューションを実装し、IronOCRとそのTesseractエンジン統合の能力を理解する方法を学びます。

最新のアプリケーションでは、複数の言語で文書を処理することが不可欠です。 国際的なビジネス文書、多言語ウェブサイト、グローバルコミュニケーションプラットフォームでは、言語の壁を越えた正確なテキスト抽出が求められます。 IronOCRは、Tesseractの豊富な言語サポートを統合することで、このニーズに対応し、複数のスクリプトと文字セットを含むドキュメントから同時にテキストを抽出することを可能にします。

クイックスタート: IronOCRを使用して複数の言語でテキストを認識する

IronOCRを一次言語で設定し、多言語文書や画像からテキストを抽出するために一行で二次言語を追加します。

  1. IronOCR をNuGetパッケージマネージャでインストール

    PM > Install-Package IronOcr
  2. このコード スニペットをコピーして実行します。

    string text = new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French).Read("doc_or_image_path").Text;
  3. 実際の環境でテストするためにデプロイする

    今日プロジェクトで IronOCR を使い始めましょう無料トライアル

    arrow pointer


多言語のPDFをIronOCRで読むには?

IronOCRは約125の言語パックを提供します; デフォルトでは英語のみインストールされます。 NuGetから他の言語をダウンロードしてください。 すべての利用可能な言語パックはここでご覧いただけます。

複数の言語を含むPDFには、特定のOCRエンジン設定が必要です。 IronOCRは、文書を処理する前に主言語と副言語を指定することができ、異なるスクリプトや文字セット間で最適な認識精度を保証します。

PDF抽出で使用できる言語はどれですか?

以下の例は、PDFファイルからテキストを抽出するためにIronOCRで複数の言語を使用する方法を示しています。

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);

// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);

// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)

' Add PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)

' Output extracted text to console
Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

複雑な PDF 処理シナリオについては、PDF OCR テキスト抽出のガイドを参照してください。

言語の優先順位はOCR結果にどのように影響しますか?

AddSecondaryLanguage メソッドを使用して、任意の数の二次言語を追加してください。 言語が追加されると、スピードとパフォーマンスに影響する可能性があることに注意してください。 言語の優先順位は、追加された順番によります。

言語の優先順位を理解することは、多言語ドキュメントを処理する上で非常に重要です。 テキスト抽出中、主な言語は最優先されます。OCRエンジンは最初に記号を主要言語の文字セットに一致させようとします。 主要言語のパターンに一致しない文字に出会うと、補助言語を参照します。

最適なパフォーマンスのために

  • 文書内で最も一般的な言語をプライマリとして設定します。
  • ドキュメントに頻度順に二次言語を追加
  • 二次言語は、ユースケースに必要なものに限定してください。

複数の言語を使用する高性能なアプリケーションについては、処理速度を最適化するための Fast OCR Configuration ガイドを参照してください。

Tesseractで多言語画像を処理するには?

デフォルトの主要言語は英語です。 変更するには、Language プロパティを希望の言語に設定し、必要に応じて二次言語を追加してください。

多言語テキストを含む画像は、慎重な設定が必要です。 PDFとは異なり、画像は様々なテキストの向き、異なるフォント、混じり合ったスクリプトを含んでいるかもしれません。IronOCRのTesseract統合は、これらのシナリオに対応するための包括的な言語設定オプションを提供します。

デフォルトの言語設定はいつ変更すべきですか?

デフォルト言語の変更

  • ドキュメントの大半は英語以外の言語です。
  • 特定の地域または国の文書の処理
  • 英語以外のコンテンツを扱うユーザーを対象としたアプリケーション
  • 特定の文字セットに対する認識精度の最適化

以下は、完全な多言語画像処理の例です:

// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);

// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);

// Output extracted text to console
Console.WriteLine(result.Text);
' Example code for reading multi-language image with IronOCR
Imports IronOcr

' Initialize IronTesseract OCR engine
Private Ocr = New IronTesseract()

Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese)

' Add image
Dim imageInput = New OcrImageInput("example.png")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(imageInput)

' Output extracted text to console
Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

カスタム言語や特殊なフォントについては、カスタム言語ファイルの使用のチュートリアルを参照してください。

多言語OCRにはどのような結果が期待できますか?

適切な設定により、次のような結果が得られます:

ロシア語と日本語のコンテンツを表示する多言語テキスト処理アプリ。コンソール出力には文字処理の結果が表示されています

多言語OCRの結果品質は、いくつかの要因に左右されます:

1.画質:解像度が高い(300+ DPI)ほど、より良い結果が得られます。 DPI 設定ガイドを参照してください。

  1. テキストの明瞭さ:明確で定義されたテキストにはアーティファクトが少なく、より正確な認識を達成します
  2. 言語設定:適切な主言語と補助言語の設定が正しい文字認識パターンを保証します 4.前処理:適切なフィルタは結果を大幅に改善します。 強化テクニックについては、画像補正フィルターガイドを参照してください。

多言語 OCR のキーポイントは何ですか?

IronOCRはTesseractエンジンを使用し、多言語ドキュメントからテキストを効果的に抽出します。 多言語のテキストを読むという複雑な作業に対応し、汎用性の高いソリューションを提供します。 様々な言語のPDFを処理する場合でも、多言語の画像コンテンツを扱う場合でも、IronOCRは言語間のテキストの認識と抽出を簡素化します。

多言語テキスト抽出のためのIronOCRの主な利点:

  • 広範な言語サポート:NuGetパッケージ経由で125以上の国際的なOCR言語
  • 柔軟な設定:主要および補助言語設定のためのシンプルなAPI
  • 高精度:Tesseract 5の高度な認識アルゴリズムを使用
  • パフォーマンスの最適化:組み込みマルチスレッドサポート
  • クロスプラットフォーム互換性:Windows、Linux、macOSで動作

IronOCRは、多言語OCR実装のための強力な機能と使いやすさを組み合わせた包括的なソリューションを提供します。 文書管理システム、翻訳ツール、または多言語テキスト抽出を必要とするあらゆるアプリケーションを、成功に必要な柔軟性と信頼性で構築します。

NuGetからIronOCRをダウンロードし、ドキュメントとサンプルを見て、多言語OCRプロジェクトを始めてください。 特定のユースケースや高度なシナリオについては、トラブルシューティングガイドが最適な結果を得るための洞察を提供します。

よくある質問

複数の言語を含む文書でOCRを実行するにはどうすればよいですか?

IronOCRはたった1行のコードで多言語OCRを設定することができます。Languageプロパティを使って一次言語を設定し、AddSecondaryLanguageメソッドを使って二次言語を追加します。これによりIronOCRは複数のスクリプトや文字セットを含む文書から同時に正確にテキストを抽出することができる。

テキスト抽出に対応している言語は?

IronOCRはTesseractエンジンとの統合により125以上の言語パックをサポートしています。デフォルトでは英語がインストールされていますが、NuGetから追加の言語パックをダウンロードすることで、スペイン語、フランス語からアラビア語、中国語、日本語、その他多くの言語のOCR機能を有効にすることができます。

OCR処理に二次言語を追加するにはどうすればよいですか?

追加言語を有効にするにはIronOCRのAddSecondaryLanguageメソッドを使用します。例えば: new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French).この設定により、IronOCRは同じドキュメント内でスペイン語とフランス語の両方のテキストを認識することができます。

多言語PDFからテキストを抽出できますか?

はい、IronOCRは複数の言語を含むPDFを処理することができます。処理前にOCRエンジンに主言語と副言語を設定するだけです。IronOCRはPDF内の異なるスクリプトや文字セットを自動的に処理し、文書内のすべての言語で正確なテキスト抽出を保証します。

言語パックを別途インストールする必要がありますか?

IronOCRにはデフォルトで英語が含まれていますが、追加の言語パックをNuGet経由でインストールする必要があります。各言語パックにはIronOCRのTesseractエンジンがその言語のテキストを認識するために必要なデータが含まれています。利用可能な全ての言語パックはIronOCRの言語ページから閲覧、ダウンロードすることができます。

多言語OCRの最小限のワークフローとは?

最小限のワークフローは以下の5ステップです:1) IronOCRライブラリのダウンロード、2) PDFまたは画像ドキュメントの準備、3) NuGet経由で必要な言語パックのインストール、4) AddSecondaryLanguageメソッドを使用して追加言語を有効化、5) 主要言語のLanguageプロパティの設定。このセットアップにより、正確な多言語テキスト抽出が可能になります。

IronOCRは既存のアプリケーションに統合できますか?

IronOCRはC#を使用して既存のアプリケーションに簡単に統合できるよう設計されており、開発者がソフトウェアにOCR機能を少ない手間で追加できるようにします。

ドキュメント管理でIronOCRを使用する利点は何ですか?

IronOCRを使用することで、スキャンされた文書を検索可能かつ編集可能なテキストに変換し、手作業によるデータ入力を減らし、文書のアクセス性を向上させることでワークフローを効率化します。

IronOCRはデータ精度をどのように向上させますか?

IronOCRはその高度な認識アルゴリズムと画像補正機能により、信頼性が高く正確なテキスト抽出プロセスを保証します。

IronOCRの無料トライアルを利用できますか?

はい、Iron SoftwareはIronOCRの無料トライアルを提供しており、ユーザーが購入決定をする前にその機能と能力をテストできます。

Kannaopat Udonpant
ソフトウェアエンジニア
ソフトウェアエンジニアになる前に、Kannapatは北海道大学で環境資源の博士号を修了しました。博士号を追求する間に、彼はバイオプロダクションエンジニアリング学科の一部である車両ロボティクスラボラトリーのメンバーになりました。2022年には、C#のスキルを活用してIron Softwareのエンジニアリングチームに参加し、IronPDFに注力しています。Kannapatは、IronPDFの多くのコードを執筆している開発者から直接学んでいるため、この仕事を大切にしています。同僚から学びながら、Iron Softwareでの働く社会的側面も楽しんでいます。コードやドキュメントを書いていない時は、KannapatはPS5でゲームをしたり、『The Last of Us』を再視聴したりしていることが多いです。
レビュー済み
Jeff Fritz
Jeffrey T. Fritz
プリンシパルプログラムマネージャー - .NETコミュニティチーム
Jeffはまた、.NETとVisual Studioチームのプリンシパルプログラムマネージャーです。彼は.NET Conf仮想会議シリーズのエグゼクティブプロデューサーであり、週に二回放送される開発者向けライブストリーム『Fritz and Friends』のホストを務め、テクノロジーについて話すことや視聴者と一緒にコードを書くことをしています。Jeffはワークショップ、プレゼンテーション、およびMicrosoft Build、Microsoft Ignite、.NET Conf、Microsoft MVPサミットを含む最大のMicrosoft開発者イベントのコンテンツを企画しています。
準備はできましたか?
Nuget ダウンロード 5,896,332 | バージョン: 2026.5 just released
Still Scrolling Icon

まだスクロールしていますか?

すぐに証拠が欲しいですか? PM > Install-Package IronOcr
サンプルを実行 あなたの画像が検索可能なテキストになるのをご覧ください。