Tesseract詳細設定

VB C#

using IronOcr;
using System;

var ocrTesseract = new IronTesseract()
{
    Language = OcrLanguage.EnglishBest,
    Configuration = new TesseractConfiguration()
    {
        ReadBarCodes = false,
        RenderHocr = true,
        BlackListCharacters = "`ë|^",
        PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd,
    }
};

using var ocrInput = new OcrInput();
ocrInput.LoadImage(@"images\image.png");
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);

Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract() With {
	.Language = OcrLanguage.EnglishBest,
	.Configuration = New TesseractConfiguration() With {
		.ReadBarCodes = False,
		.RenderHocr = True,
		.BlackListCharacters = "`ë|^",
		.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd
	}
}

Private ocrInput = New OcrInput()
ocrInput.LoadImage("images\image.png")
Dim ocrResult = ocrTesseract.Read(ocrInput)
Console.WriteLine(ocrResult.Text)

Install-Package IronOcr

Tesseract詳細設定

OCR に関しては、ドキュメントからテキストを抽出する方法のオプションと柔軟性が不可欠です。 OCR の実行にはコストがかかるため、OCR を利用するアプリケーションがスケーラブルかつ効率的であることを保証するには、特定のドキュメントで使用するパフォーマンスと方法を制御できることが必要です。

IronTesseract は開発者にいくつかのプロパティとオプションを提供しており、さまざまに試行錯誤することができます。例えば、特定の文字をブラックリストに追加したり、文書内のバーコードを読み取ったり、さらにはOCRエンジンがページをどのように読んで潜在的なテキストブロックをスキャンするかを指示することも可能です。IronTesseract クラスを使用することで、このすべてが可能です。

IronOCRと`Tesseract` 5を使用するための5段階のガイド

var ocrTesseract = new IronTesseract();
ocrTesseract.Language = OcrLanguage.EnglishBest;
ocrTesseract.Configuration.ReadBarCodes = false;.
ocrTesseract.Configuration.BlackListCharacters = "`ë|^";.
ocrTesseract.Configuration.TesseractVariables["tessedit_parallelize"]=false;。

IronTesseract クラスを初期化した後、すぐに変更したい数個の重要なオプションが利用可能になります。設定する最初のプロパティは Language です。デフォルトでは、言語は英語です。しかしながら、IronTesseract は最大で125の言語をサポートし、UseMultipleLanguages メソッドを使用して複数の言語にも対応しています。詳細については、こちらを参照してください。

設定したい2番目のプロパティは TesseractConfiguration クラスです。このクラスを使用すると、Tesseract エンジンがドキュメントをスキャンして潜在的なテキストブロックを検出する方法を変更できます。

まず、言語を OcrLanguage.EnglishBest に割り当てることでTesseractエンジンの言語を変更します。このバリエーションは LSTM と OEM を組み合わせたもので、OCRを使用した形状認識戦略です。これら 2 つの戦略を組み合わせることで、OCR はより正確な結果を生成できます。
その後、OCRプロセス中にバーコードを読み込まないよう、ReadBarCodes を false に設定します。

また、ドキュメント上の特定の文字をブラックリストに登録することで、抽出する文字をさらにカスタマイズして指定します。この例では、バッククォート、アクセント、またはキャレットを含むテキストの抽出を避けるために、文字をブラックリストに登録します。最後に、並列処理を一時的に無効にするために TesseractVariables["tessedit_parallelize"] を false に設定します。この最後の機能は非常に強力で、Tesseractエンジンに直接働きかけます。こちらに、OCRを行う際にTesseractエンジンの動作をさらにカスタマイズするための TesseractVariables の完全なリストがあります。

IronTesseract のその他の構成オプションを調べる