Tesseractで複数の言語を使用する方法

C#でTesseractを使って複数の言語を使う方法

This article was translated from English: Does it need improvement?
Translated
View the article in English

光学文字認識(OCR)技術の分野において、IronOCRは様々な言語や文字体系からテキストを抽出できることで定評のあるツールです。当社はTesseractエンジンを採用し、信頼性が高く使いやすいOCRツールを提供しています。

この記事では、Tesseract を利用して IronOCR が複数の言語のテキストを効果的に処理する方法について説明します。 信頼性の高い多言語 OCR ソリューションを探している経験豊富な開発者であっても、単にその仕組みに興味があるだけの場合でも、この記事は IronOCR とその Tesseract エンジンを理解するのに役立ち、この貴重なツールの機能を明らかにします。

クイックスタート: IronOCR を使用して複数の言語のテキストを認識する

たった 1 行のコードで、IronOCR を主要言語で設定し、二次言語を追加して、複数の言語のドキュメントや画像からテキストを抽出できます。 この設定により、開発者は多言語 OCR を迅速かつ簡単に使用できるようになります。

Nuget Icon今すぐ NuGet で PDF を作成してみましょう:

  1. NuGet パッケージ マネージャーを使用して IronOCR をインストールします

    PM > Install-Package IronOcr

  2. このコード スニペットをコピーして実行します。

    string text = new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French).Read("doc_or_image_path").Text;
  3. 実際の環境でテストするためにデプロイする

    今すぐ無料トライアルでプロジェクトに IronOCR を使い始めましょう
    arrow pointer


多言語PDFの例を読む

IronOcr は約 125 の言語パックを提供します。 ただし、デフォルトでは英語のみがインストールされます。 残りは NuGet からダウンロードできます。 利用可能なすべての言語パックはここで確認できます。

次の例では、IronOcr で複数の言語を使用して PDF ファイルからテキストを抽出するコードを示します。

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);

// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);

// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)

' Add PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)

' Output extracted text to console
Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

AddSecondaryLanguageメソッドを使用して、任意の数の二次言語を追加できます。 ただし、この追加により速度とパフォーマンスに影響が出る可能性があることに注意してください。 言語の優先順位は追加された順序によって決まり、最初に追加された言語の優先順位が高くなります。

多言語画像の例を読む

デフォルトでは、主要言語は英語に設定されています。 主言語を変更するには、言語プロパティを目的の言語に設定します。 その後、二次言語を追加することもできます。

// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set primary language to Russian
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);

// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);

// Output extracted text to console
Console.WriteLine(result.Text);
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

これを正しく実行すると、以下のような結果が期待できます。

ロシア語と日本語

結論

簡単に言えば、強力なTesseractエンジンを搭載したIronOCRは、異なる言語のドキュメントからテキストを抽出するのに優れています。 これは、多くの言語でテキストを読む際の複雑な処理に欠かせないツールであり、開発者や好奇心旺盛な人々に多目的なソリューションを提供します。 さまざまな言語のテキストを含む PDF を処理する場合でも、画像内の多言語コンテンツを扱う場合でも、IronOCR を使用すると、複数の言語のテキストを認識して抽出するタスクが簡素化されます。

よくある質問

OCR処理で複数言語をどのように使用できますか?

IronOCRでのOCR処理で複数言語を使用するには、NuGetからライブラリをダウンロードし、文書を準備し、追加の言語パックをインストールし、AddSecondaryLanguageメソッドを使用して他の言語を有効にします。

複数言語のPDFからテキストを抽出するにはどうすればよいですか?

複数言語のPDFからテキストを抽出するには、IronTesseract OCRエンジンを初期化し、主要言語を設定して、AddSecondaryLanguageメソッドを使用して副次言語を追加し、PDFを処理してその内容を読み取ります。

画像内の複数の言語でテキストを認識することは可能ですか?

はい、IronOCRを使用すると、画像内の複数の言語でテキストを認識できます。主要言語を設定し、副次言語をOCRエンジンに追加してから画像を処理します。

複数言語を追加するとOCRのパフォーマンスにどのように影響が出ますか?

IronOCRで複数言語を追加することは、OCRプロセスの速度とパフォーマンスに影響を与える可能性があります。追加する言語の順序がその優先順位を決定し、最初に追加された言語が高い優先順位を持ちます。

IronOCRでデフォルト言語をどのように変更できますか?

ドキュメントや画像を処理する前に、希望する言語をLanguageプロパティに設定することで、IronOCRでのデフォルト言語を変更できます。

IronOCRは何個の言語パックをサポートしていますか?

IronOCRは約125の言語パックをサポートしていますが、デフォルトでは英語の言語パックのみがインストールされています。追加の言語パックはNuGetを通じてダウンロードできます。

IronOCRで追加の言語パックをどのようにインストールできますか?

IronOCRで追加の言語パックをインストールするには、NuGetパッケージマネージャーを使用して希望の言語パックをダウンロードし、プロジェクトに含めます。

IronOCRは異なる文字体系の言語のテキストを読めますか?

はい、IronOCRはTesseractエンジンを利用し、関連のある言語パックを有効にすることで、さまざまな言語の異なる文字体系のテキストを読むことができます。

IronOCRを多言語コンテンツに使用する利点は何ですか?

IronOCRは、多言語コンテンツからテキストを認識し抽出するための多目的ソリューションを提供し、複数の言語を含む文書や画像を扱う開発者にとって理想的です。

Kannaopat Udonpant
ソフトウェアエンジニア
ソフトウェアエンジニアになる前に、Kannapatは北海道大学で環境資源の博士号を修了しました。博士号を追求する間に、彼はバイオプロダクションエンジニアリング学科の一部である車両ロボティクスラボラトリーのメンバーになりました。2022年には、C#のスキルを活用してIron Softwareのエンジニアリングチームに参加し、IronPDFに注力しています。Kannapatは、IronPDFの多くのコードを執筆している開発者から直接学んでいるため、この仕事を大切にしています。同僚から学びながら、Iron Softwareでの働く社会的側面も楽しんでいます。コードやドキュメントを書いていない時は、KannapatはPS5でゲームをしたり、『The Last of Us』を再視聴したりしていることが多いです。
レビュー済み
Jeff Fritz
Jeffrey T. Fritz
プリンシパルプログラムマネージャー - .NETコミュニティチーム
Jeffはまた、.NETとVisual Studioチームのプリンシパルプログラムマネージャーです。彼は.NET Conf仮想会議シリーズのエグゼクティブプロデューサーであり、週に二回放送される開発者向けライブストリーム『Fritz and Friends』のホストを務め、テクノロジーについて話すことや視聴者と一緒にコードを書くことをしています。Jeffはワークショップ、プレゼンテーション、およびMicrosoft Build、Microsoft Ignite、.NET Conf、Microsoft MVPサミットを含む最大のMicrosoft開発者イベントのコンテンツを企画しています。
準備はできましたか?
Nuget ダウンロード 5,167,857 | Version: 2025.11 リリース