C#のTesseractでカスタム言語を使用する方法

更新日:2026年5月7日

Translated

View the article in English

IronOCR は、カスタム言語、特殊スクリプト、または暗号化された文書に対して OCR を有効にし、.traineddata ファイルを UseCustomTesseractLanguageFile メソッドを通じてロードし、任意のカスタム言語モデルからテキストを抽出できるようにします。

クイックスタート: OCR用にカスタム言語をロード

IronOCR をNuGetパッケージマネージャでインストール
PM > Install-Package IronOcr

このコードスニペットをコピーして実行します。

using IronOcr;

// Initialize OCR engine
var ocr = new IronTesseract();

// Load custom language file
ocr.UseCustomTesseractLanguageFile("custom.traineddata");

// Process document
using var input = new OcrInput();
input.LoadImage("document.png");

// Extract text
var result = ocr.Read(input);
Console.WriteLine(result.Text);

実際の環境でテストするためにデプロイする

今日プロジェクトで IronOCR を使い始めましょう無料トライアル

NuGet パッケージマネージャを介して IronOcr をインストール
UseCustomTesseractLanguageFile を使用してカスタム .traineddata ファイルをロード
OcrInput を作成し、文書をロードします
カスタム言語でテキストを抽出するには Read() を呼び出します
抽出されたテキストを保存または処理します

光学式文字認識（OCR）では、カスタム言語や特殊なスクリプト、暗号を扱う必要がある場合があります。カスタム言語を含む入力イメージを読み取るには、Tesseract エンジンにその特定の言語のトレーニングデータを提供する必要があります。このデータは特別な .traineddata ファイルに保存されます。

このファイルを作成 (トレーニング) する複雑なプロセスは Tesseract 独自のツールを使用して実行されますが、IronOCR はこれらのカスタム言語ファイルの使用を完全にサポートしています。これにより、トレーニング済みのモデルを適用して、任意の入力からテキストを解読して読み取ることができます。このガイドでは、IronOCR でカスタム .traineddata ファイルをロードして使用する方法を示します。

Tesseractでカスタム言語を使用する方法

カスタム言語を読み取るためのC#ライブラリをダウンロードする
OCRエンジンを初期化
UseCustomTesseractLanguageFileを使用してカスタム言語トレーニングデータをロードします。
LoadImageで入力画像を読み込む
Readでカスタム言語入力イメージを読み取り、抽出します。

Tesseractでカスタム言語OCRを実装するには？

Tesseract でカスタム言語を使用するには、まず UseCustomTesseractLanguageFile メソッドを呼び出して .traineddata ファイルをロードします。このファイルには、Tesseract がカスタム言語の固有の文字を認識できるようにするすべてのトレーニングデータが含まれているため、これは重要なステップです。

IronOCRのカスタム言語サポートは標準言語を超えています。歴史的なスクリプトや発明された言語、特殊な表記システムを扱う場合でも、同じプロセスが適用されます。複数の言語を必要とするプロジェクトについては、複数言語の読み取りに関するガイドをチェックするか、箱から出してすぐにサポートされている125の国際的なOCR言語について学んでください。

次に、通常のOCR操作と同じように、入力文書を読み込みます。私たちは LoadPdf を使ってカスタム言語段落を含む PDF を読み込んでいます。 IronOCRは画像(jpg, png, gif, tiff, bmp)とPDFを含む様々な入力フォーマットをサポートしています。

最後に、Read メソッドを使用して入力からテキストを抽出してください。翻訳結果は、コンソールに印刷したり、テキストファイルに保存して参照することができます。

カスタム言語にはどのようなトレーニングデータが必要ですか?

カスタム言語のテキストを含むこのサンプル PDF を入力として使用します。

このカスタム言語 .traindataを使って、私たちの例を進めます。

トレーニングデータの品質と包括性はOCRの精度に直接影響します。カスタム言語トレーニングデータを作成する場合

文字のカバー率：すべての文字と記号が含まれていることを確認してください
フォントのバリエーション：ドキュメントのタイポグラフィが異なる場合は、複数のフォントスタイルを含めてください
画像の品質：実際に処理する画像と類似の画像でするトレーニングを行ってください
コンテキストのパターン：一般的な単語の組み合わせやフレーズを含めてください

高度な設定オプションについては、Tesseract 詳細設定ガイドをご覧ください。

カスタム言語ドキュメントを読み込んで処理するにはどうすればよいですか?

:path=/static-assets/ocr/content-code-examples/how-to/ocr-custom-language.cs

using IronOcr;
using System;
using System.IO;

var ocrTesseract = new IronTesseract();

// Load the traineddata file for the custom language
ocrTesseract.UseCustomTesseractLanguageFile("AMGDT.traineddata");

using var ocrInput = new OcrInput();
// Load the PDF containing text in the custom language
ocrInput.LoadPdf("custom.pdf");

var ocrResult = ocrTesseract.Read(ocrInput);

// Print text to the console
Console.WriteLine("--- OCR Result ---");
Console.WriteLine(ocrResult.Text);
Console.WriteLine("------------------");

// Pipe text to a .txt file
string outputFilePath = "ocr_output.txt";
File.WriteAllText(outputFilePath, ocrResult.Text);

Console.WriteLine($"\nSuccessfully saved text to {outputFilePath}");

Imports IronOcr
Imports System
Imports System.IO

Dim ocrTesseract As New IronTesseract()

' Load the traineddata file for the custom language
ocrTesseract.UseCustomTesseractLanguageFile("AMGDT.traineddata")

Using ocrInput As New OcrInput()
    ' Load the PDF containing text in the custom language
    ocrInput.LoadPdf("custom.pdf")

    Dim ocrResult = ocrTesseract.Read(ocrInput)

    ' Print text to the console
    Console.WriteLine("--- OCR Result ---")
    Console.WriteLine(ocrResult.Text)
    Console.WriteLine("------------------")

    ' Pipe text to a .txt file
    Dim outputFilePath As String = "ocr_output.txt"
    File.WriteAllText(outputFilePath, ocrResult.Text)

    Console.WriteLine(vbCrLf & "Successfully saved text to " & outputFilePath)
End Using

$vbLabelText $csharpLabel

上記のコードは、カスタム言語OCRの基本的なワークフローを示しています。より複雑なシナリオについては、以下の機能拡張をご検討ください：

パフォーマンスを最適化する：大きなドキュメントやバッチ処理では、マルチスレッドと非同期サポートを実装してパフォーマンスを向上させましょう。

画像前処理：ソース文書に品質の問題がある場合、OCR処理の前に画像補正フィルターを適用します。フィルタウィザードは、最適な前処理設定を見つけるのに役立ちます。

地域固有のOCR：コンテンツが混在するドキュメントでは、OCR region of an image テクニックを使用して、カスタム言語を含む特定の領域に焦点を当てます。

カスタム言語OCRにはどのような結果が期待できますか?

この出力は、カスタム言語モデルの結果を示しています。 IronOCRは正しい学習データを提供することで、テキストの解読に成功し、結果は平易な英語となりました。さらに、これはコードによって生成されたテキスト出力です。

カスタム言語OCRの精度は、いくつかの要因に左右されます：

トレーニングデータの品質：より良いトレーニングデータはより良い結果をもたらします
ドキュメントの一貫性：トレーニングデータと一致するドキュメントが最良の性能を発揮します
画像解像度: DPIが高い画像ほど、より正確な結果が得られます - DPI設定に関するガイドを参照してください。

カスタム言語実装のベストプラクティス

本番環境でカスタム言語OCRを実装する場合は、以下のベストプラクティスを考慮してください：

エラーハンドリングと検証: .traineddata ファイルが存在し、ロードしようとする前にアクセス可能であることを常に検証してください。カスタム言語ファイルが見つからない、または破損している可能性がある場合の適切なエラー処理を実装します。

パフォーマンスの最適化：カスタム言語モデルは、標準の言語パックよりも大きくなる可能性があります。最適なパフォーマンスのために

複数のドキュメントを処理する際には、ロードされた言語モデルをキャッシュしてください
長時間実行されるOCR操作を監視するために進捗トラッキングを利用してください
大きなドキュメントを処理するためにタイムアウトを実装することを検討してください

標準言語との組み合わせ: 文書にカスタム言語と標準言語の両方が含まれている場合、複数の言語を同時に読み込むことができます。これは、内容が混在する文書に特に有効です。

テストと検証: OCRの精度を検証するためのテストフレームワークを確立する：

既知の出力を持つテストデータセットを作成してください
認識品質を評価するために結果の信頼性の指標を使用してください
highlight text as images を実装し、ビジュアルデバッグを行う。

高度な使用例

カスタム言語OCRは、多くの可能性を広げます：

歴史的文書の保存：古代の写本や時代遅れの文字で書かれたテキストをデジタル化する。 専門表記システム：数式、楽譜、技術ダイアグラムの処理 - 数式トラブルシューティングガイドをご覧ください。 セキュリティアプリケーション：独自のエンコーディングシステムや暗号をデコードする。 アクセシビリティ：特殊な点字または触覚筆記システムを標準テキストに変換する。

より高度なシナリオについては、コード例をご参照ください。

よくある質問

カスタム言語やスクリプトを含む文書でOCRを実行するにはどうすればよいですか？

IronOCRはUseCustomTesseractLanguageFileメソッドを通してTesseract.traineddataファイルをロードすることでカスタム言語OCRを可能にします。これにより、特殊なスクリプト、歴史的なテキスト、暗号など、カスタム学習された言語モデルからテキストを抽出することができます。

カスタム言語認識に必要なファイル形式は？

IronOCRはカスタム言語の学習データを含む.traineddataファイルを必要とします。このファイルはUseCustomTesseractLanguageFileメソッドを使用して読み込まれ、Tesseractがカスタム言語固有の文字を認識するために必要なすべての情報が含まれています。

1つのOCR操作で複数のカスタム言語を使用できますか？

はい、IronOCRは複数の言語認識に対応しています。複数のカスタム言語ファイルを読み込んだり、カスタム言語とIronOCRがすぐにサポートする125の国際言語を組み合わせることができます。

どのような種類のカスタムスクリプトを認識できますか？

IronOcrは、歴史的なスクリプト、発明された言語、特殊な表記法、暗号など、.traineddataファイルに適切に学習されたカスタムスクリプトを認識することができます。その柔軟性は、Tesseractのツールを使って学習させることができるあらゆる文字体系にも及んでいる。

C#アプリケーションにカスタム言語OCRを実装するには？

IronOCRでカスタム言語OCRを実装するには: 1) IronTesseractインスタンスを初期化し、2) UseCustomTesseractLanguageFileを使用してカスタム.traineddataファイルをロードし、3) OcrInputオブジェクトを作成してドキュメントをロードし、4) Read()メソッドを呼び出してテキストを抽出し、5) 必要に応じて抽出されたテキストを処理する。

IronOCRは複数の言語をサポートしていますか？

IronOCRは複数言語をサポートしており、異なる言語でのテキスト認識を必要とするグローバルアプリケーションに対する多用途ツールです。

IronOCRは既存のアプリケーションに統合できますか？

IronOCRはC#を使用して既存のアプリケーションに簡単に統合できるよう設計されており、開発者がソフトウェアにOCR機能を少ない手間で追加できるようにします。

ドキュメント管理でIronOCRを使用する利点は何ですか？

IronOCRを使用することで、スキャンされた文書を検索可能かつ編集可能なテキストに変換し、手作業によるデータ入力を減らし、文書のアクセス性を向上させることでワークフローを効率化します。

IronOCRはデータ精度をどのように向上させますか？

IronOCRはその高度な認識アルゴリズムと画像補正機能により、信頼性が高く正確なテキスト抽出プロセスを保証します。

IronOCRの無料トライアルを利用できますか？

はい、Iron SoftwareはIronOCRの無料トライアルを提供しており、ユーザーが購入決定をする前にその機能と能力をテストできます。

Curtis Chau

今すぐエンジニアリングチームとチャット

テクニカルライター

Curtis Chauは、カールトン大学でコンピュータサイエンスの学士号を取得し、Node.js、TypeScript、JavaScript、およびReactに精通したフロントエンド開発を専門としています。直感的で美しいユーザーインターフェースを作成することに情熱を持ち、Curtisは現代のフレームワークを用いた開発や、構造の良い視覚的に魅力的なマニュアルの作成を楽しんでいます。

開発以外にも、CurtisはIoT（Internet of Things）への強い関心を持ち、ハードウェアとソフトウェアの統合方法を模索しています。余暇には、ゲームをしたりDiscordボットを作成したりして、技術に対する愛情と創造性を組み合わせています。

準備はできましたか？

Nuget ダウンロード 6,151,372 | バージョン: 2026.7 リリースされたばかり

ライセンスを見る

まだスクロールしていますか?

すぐに証拠が欲しいですか? PM > Install-Package IronOcr
サンプルを実行あなたの画像が検索可能なテキストになるのをご覧ください。

ライセンスを見る

顧客ハイライト:

開発者スポットライト:

ウェビナー:

無料30日間のトライアルを開始

このページでは

C#のTesseractでカスタム言語を使用する方法

IronOCR をNuGetパッケージマネージャでインストール

このコードスニペットをコピーして実行します。

実際の環境でテストするためにデプロイする

Tesseractでカスタム言語を使用する方法

Tesseractでカスタム言語OCRを実装するには？

カスタム言語にはどのようなトレーニングデータが必要ですか?

カスタム言語ドキュメントを読み込んで処理するにはどうすればよいですか?

カスタム言語OCRにはどのような結果が期待できますか?

カスタム言語実装のベストプラクティス

高度な使用例

よくある質問

カスタム言語やスクリプトを含む文書でOCRを実行するにはどうすればよいですか？

カスタム言語認識に必要なファイル形式は？

1つのOCR操作で複数のカスタム言語を使用できますか？

どのような種類のカスタムスクリプトを認識できますか？

C#アプリケーションにカスタム言語OCRを実装するには？

IronOCRは複数の言語をサポートしていますか？

IronOCRは既存のアプリケーションに統合できますか？

ドキュメント管理でIronOCRを使用する利点は何ですか？

IronOCRはデータ精度をどのように向上させますか？

IronOCRの無料トライアルを利用できますか？

まだスクロールしていますか?

ライセンスキーがメールボックスに配信されました

デモリクエストが受け付けられました。

アイアンサポートチーム

無料30日間のトライアルを開始

このページでは

C#のTesseractでカスタム言語を使用する方法

IronOCR をNuGetパッケージマネージャでインストール

このコード スニペットをコピーして実行します。

実際の環境でテストするためにデプロイする

Tesseractでカスタム言語を使用する方法

Tesseractでカスタム言語OCRを実装するには？

カスタム言語にはどのようなトレーニングデータが必要ですか?

カスタム言語ドキュメントを読み込んで処理するにはどうすればよいですか?

カスタム言語OCRにはどのような結果が期待できますか?

カスタム言語実装のベストプラクティス

高度な使用例

よくある質問

カスタム言語やスクリプトを含む文書でOCRを実行するにはどうすればよいですか？

カスタム言語認識に必要なファイル形式は？

1つのOCR操作で複数のカスタム言語を使用できますか？

どのような種類のカスタムスクリプトを認識できますか？

C#アプリケーションにカスタム言語OCRを実装するには？

IronOCRは複数の言語をサポートしていますか？

IronOCRは既存のアプリケーションに統合できますか？

ドキュメント管理でIronOCRを使用する利点は何ですか？

IronOCRはデータ精度をどのように向上させますか？

IronOCRの無料トライアルを利用できますか？

まだスクロールしていますか?

次のステップ：30日間の無料トライアルを開始

Thank You

次のステップ：30日間の無料トライアルを開始

IronSuiteを実際のプロジェクトに無料で導入してみませんか？

含まれているものは？

ライセンスキーがメールボックスに配信されました

デモリクエストが受け付けられました。

世界中の数百万人のエンジニアから信頼されています。

アイアンサポートチーム

このコードスニペットをコピーして実行します。