フッターコンテンツにスキップ

設定と言語

完璧な結果を得るためにOCRエンジンを微調整します。パフォーマンスと精度に対する詳細なコントロールを得ることができ、125以上の言語に対する即時サポートがあります。

Icon Main related to 設定と言語
OCR 詳細設定

1

通常のOCR構成

Tesseractのコアエンジンは、数十ものパラメータを細かく制御することができます。特定の文書タイプ、言語、品質上の課題に対してパフォーマンスを最適化したい上級ユーザー向けに、詳細なカスタマイズが可能です。

C#のTesseract OCR構成変数 の方法を学びます。
IronTesseract ocr = new IronTesseract
{
    Configuration = new TesseractConfiguration
    {
        ReadBarCodes = false,
        RenderHocr = true,
        TesseractVariables = null,
        WhiteListCharacters = null,
        BlackListCharacters = "`ë|^",
    },
    MultiThreaded = false,
    Language = OcrLanguage.English,
    EnableTesseractConsoleMessages = true, // False as default
};
C#
2

高度な読解のためのOCR設定

OCRのコンフィギュレーション設定と、Advanced OCRの読み取り方式で使用可能な言語については、こちらをご覧ください。

using IronOcr;

IronTesseract ocr = new IronTesseract
{
    Configuration = new TesseractConfiguration
    {
        // Whitelist alphanumeric characters and common punctuation
        WhiteListCharacters = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789.,-?!$() /",
        // Blacklist uncommon characters 
        BlackListCharacters = "`ë|^",
    },

    // Languages available for advanced reading are English, Japanese, Korean, LatinAlphabet   
    Language = OcrLanguage.English
};
C#
3

高速OCR設定

OCRエンジンを最適化し、最高速度を実現します。絶対的な精度よりもパフォーマンスを優先するように設定を調整することで、スピードが重要な要素となる大量の文書を迅速に処理できます。

.NET向けTesseract OCRの高速化
C#

Icon Main related to 設定と言語
言語

1

125 言語 OCR 対応

125以上の国際言語で高い精度を達成します。当社のパックには、非ラテン文字(アラビア語、中国語、ヘブライ語など)や発音区分符号のある言語に対する強力なサポートが含まれています。1行のコードで簡単に言語の追加や切り替えができます。

多言語 OCR を使いこなす:英語と日本語
using IronOcr;

var ocr = new IronTesseract();

// Set the OCR to use Chinese Simplified
ocr.Language = OcrLanguage.ChineseSimplified;
using (var input = new OcrInput())
{
    var result = ocr.Read(input);

    // Store the recognized text in a string
    string testResult = result.Text;
}
C#
2

多言語リーディング

同じページに複数の言語が含まれるドキュメントからテキストを正確に抽出します。IronOcrは指定された言語を自動的に検出し、切り替えるため、各言語のコンテンツに対して個別の処理を行う必要がありません。

Tesseractで複数の言語を使用する 方法を学びます。
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract()
{   // Set primary language to English
    Language = OcrLanguage.EnglishBest,
};

// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);

// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");

// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);

// Output extracted text to console
Console.WriteLine(result.Text);
C#
3

カスタマイズ言語リーディング

独自の学習済み言語データを提供することで、組み込みの言語パックを超えることができます。希少な言語、特殊なフォント、独自の文字セットを使用したドキュメントで高い精度を達成します。

次の方法を学んでください:カスタム言語ファイルを使用する
using IronOcr;

var ocrTesseract = new IronTesseract();
ocrTesseract.UseCustomTesseractLanguageFile("custom_tesseract_files/custom.traineddata");
using var ocrInput = new OcrInput();
ocrInput.LoadImage(@"sample.png");
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);
C#
準備はできましたか?
Nuget ダウンロード 5,167,857 | Version: 2025.11 リリース