C#でTesseractを使用してカスタム言語を使用する方法

This article was translated from English: Does it need improvement?
Translated
View the article in English

光学式文字認識 (OCR) に関しては、カスタム言語、特殊なスクリプト、または暗号を処理する必要がある場合があります。 カスタム言語を含む入力イメージを読み取るには、Tesseract エンジンにその特定の言語のトレーニング データを提供する必要があります。 このデータは特別な.traineddataファイルに保存されます。

このファイルを作成 (トレーニング) する複雑なプロセスは Tesseract 独自のツールを使用して実行されますが、IronOCR はこれらのカスタム言語ファイルの使用を完全にサポートしています。 これにより、トレーニング済みのモデルを適用して、任意の入力からテキストを解読して読み取ることができます。 このハウツーガイドでは、IronOCR でカスタム.traineddataファイルを読み込んで使用する方法を紹介します。

IronOCR を使い始める

今日あなたのプロジェクトでIronOCRを無料トライアルで使用開始。

最初のステップ:
green arrow pointer


Tesseractを使用したカスタム言語

Tesseract でカスタム言語を使用するには、まずUseCustomTesseractLanguageFileメソッドを呼び出して.traineddataファイルをロードする必要があります。 このファイルには、Tesseract がカスタム言語の固有の文字を認識できるようにするすべてのトレーニング データが含まれているため、これは重要なステップです。

その後、通常の OCR 操作と同じように入力ドキュメントを読み込みます。 この例では、 LoadPdfを使用してカスタム言語の段落を含む PDF を読み込んでいます。

最後に、 Readメソッドを使用して入力からテキストを抽出します。 結果はコンソールに出力することも、例に示すように参照用にテキスト ファイルに保存 (パイプ) することもできます。

入力

カスタム言語のテキストを含むこのサンプル PDF を入力として使用します。

この例では、このカスタム言語.traindataを使用します。

コード例

:path=/static-assets/ocr/content-code-examples/how-to/ocr-custom-language.cs
using IronOcr;
using System;
using System.IO;

var ocrTesseract = new IronTesseract();

// Load the traineddata file for the custom language
ocrTesseract.UseCustomTesseractLanguageFile("AMGDT.traineddata");

using var ocrInput = new OcrInput();
// Load the PDF containing text in the custom language
ocrInput.LoadPdf("custom.pdf");

var ocrResult = ocrTesseract.Read(ocrInput);

// Print text to the console
Console.WriteLine("--- OCR Result ---");
Console.WriteLine(ocrResult.Text);
Console.WriteLine("------------------");

// Pipe text to a .txt file
string outputFilePath = "ocr_output.txt";
File.WriteAllText(outputFilePath, ocrResult.Text);

Console.WriteLine($"\nSuccessfully saved text to {outputFilePath}");
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

出力

OCR出力テキスト

この出力は、カスタム言語モデルの結果を示しています。 ご覧のとおり、正しいトレーニング データを提供することで、IronOCR はテキストを正常に解読し、結果は平易な英語になりました。 さらに、これはコードによって生成されたtxt出力です。

よくある質問

IronOCR で Tesseract を使用したカスタム言語を使用する目的は何ですか?

IronOCRのTesseractでカスタム言語を使用すると、デフォルトではサポートされていない特殊な文字や言語を含む画像やPDFからテキストを認識し、抽出できます。これは、その言語に必要なトレーニングデータを含むカスタムの`.traineddata`ファイルを読み込むことで実現されます。

IronOCR にカスタム言語トレーニング データ ファイルを読み込むにはどうすればよいでしょうか?

IronOCRでは、`UseCustomTesseractLanguageFile`メソッドを使用して、カスタム言語のトレーニングデータファイルを読み込むことができます。このステップは、カスタム言語固有の文字を認識するために必要なトレーニングデータをTesseractエンジンに提供するため、非常に重要です。

IronOCR を使用してカスタム言語で画像に対して OCR を実行する手順は何ですか?

IronOCR を使用してカスタム言語で画像に対して OCR を実行するには、まず C# ライブラリをダウンロードし、OCR エンジンを初期化し、`UseCustomTesseractLanguageFile` を使用してカスタム言語のトレーニング データを読み込み、`LoadImage` を使用して入力画像を読み込み、最後に `Read` メソッドを使用してテキストを抽出します。

IronOCR はカスタム言語テキストを含む PDF を処理できますか?

はい、IronOCRはカスタム言語テキストを含むPDFを処理できます。`LoadPdf`メソッドを使用してPDFを読み込み、`Read`メソッドを使用して、提供されたカスタム言語トレーニングデータに基づいてテキストを抽出できます。

Tesseract および IronOCR のコンテキストにおける `.traineddata` ファイルとは何ですか?

`.traineddata` ファイルは、Tesseract OCR で使用されるデータファイルで、特定の言語のトレーニングデータが含まれています。このファイルにより、OCR エンジンは特定の言語の文字を認識して処理できるようになり、IronOCR でカスタム言語を処理する際にも利用できます。

IronOCR のすべてのカスタム言語に対して独自の `.traineddata` ファイルを作成する必要がありますか?

いいえ、カスタム言語ごとに独自の `.traineddata` ファイルを作成する必要はありません。既存の `.traineddata` ファイルがある場合は、それを使用できます。ただし、特定の言語がサポートされていない場合は、Tesseract のツールを使用して作成する必要がある場合があります。

カスタム言語を使用する場合、IronOCR ではどのような出力形式がサポートされますか?

IronOCRは、カスタム言語を使用する場合、コンソールに出力したりテキストファイルに保存したりできるプレーンテキスト出力など、様々な出力形式をサポートしています。抽出されたテキストは、必要に応じてさらに加工することができます。

カーティス・チャウ
テクニカルライター

Curtis Chauは、カールトン大学でコンピュータサイエンスの学士号を取得し、Node.js、TypeScript、JavaScript、およびReactに精通したフロントエンド開発を専門としています。直感的で美しいユーザーインターフェースを作成することに情熱を持ち、Curtisは現代のフレームワークを用いた開発や、構造の良い視覚的に魅力的なマニュアルの作成を楽しんでいます。

開発以外にも、CurtisはIoT(Internet of Things)への強い関心を持ち、ハードウェアとソフトウェアの統合方法を模索しています。余暇には、ゲームをしたりDiscordボットを作成したりして、技術に対する愛情と創造性を組み合わせています。

準備はできましたか?
Nuget ダウンロード 5,167,857 | Version: 2025.11 リリース