IronOCRで領域と矩形を切り抜く
IronOCRでPDFにコンテンツエリアを設定するには?
コンテンツエリアとPDF
OcrInput.LoadPdf
と LoadPdfPage
メソッドには、ContentArea を追加するオプションがあります。
PDFのサイズはピクセル単位ではありませんが、コンテンツ領域は一般的にピクセル単位で測定されます。
オプション1
OcrInput.TargetDPI デ フ ォル ト は 225 - PDF 画像のサ イ ズ を ピ ク セル単位で指定 し ます。 IronOCRはこれを読むだろう。
オプション2(理想的な使用例)
-
PDFテンプレートにはOcrInput.LoadPdf()を使用します
-
OcrInput.GetPages()を使用して、入力の幅と高さを取得します
-
OcrInput.GetPages().First().ToBitmap() を使用して、OCRエンジンが読み取る正確な画像を取得します。
-
書き出された画像からContentAreasをピクセル単位で測定できるようになりました。
-
ターゲット座標は特定のOCR領域に使用できます(最終結果を参照)。
あなたの情報を得るために:
using IronOcr;
var ocr = new IronTesseract();
using (var input = new OcrInput())
{
input.LoadPdf("example.pdf");
input.GetPages().First().ToBitmap().SaveAs("measure-me.bmp");
var width = input.GetPages().First().Width;
var height = input.GetPages().First().Height;
}
using IronOcr;
var ocr = new IronTesseract();
using (var input = new OcrInput())
{
input.LoadPdf("example.pdf");
input.GetPages().First().ToBitmap().SaveAs("measure-me.bmp");
var width = input.GetPages().First().Width;
var height = input.GetPages().First().Height;
}
Imports IronOcr
Private ocr = New IronTesseract()
Using input = New OcrInput()
input.LoadPdf("example.pdf")
input.GetPages().First().ToBitmap().SaveAs("measure-me.bmp")
Dim width = input.GetPages().First().Width
Dim height = input.GetPages().First().Height
End Using
最終結果
using IronOcr;
var ocr = new IronTesseract();
using (var input = new OcrInput())
{
var contentArea = new IronSoftware.Drawing.Rectangle()
{ X = 215, Y = 1250, Height = 280, Width = 1335 }; //<-- the area you want in px
input.LoadPdf("example.pdf", ContentArea: contentArea);
var result = ocr.Read(input);
}
using IronOcr;
var ocr = new IronTesseract();
using (var input = new OcrInput())
{
var contentArea = new IronSoftware.Drawing.Rectangle()
{ X = 215, Y = 1250, Height = 280, Width = 1335 }; //<-- the area you want in px
input.LoadPdf("example.pdf", ContentArea: contentArea);
var result = ocr.Read(input);
}
Imports IronOcr
Private ocr = New IronTesseract()
Using input = New OcrInput()
Dim contentArea = New IronSoftware.Drawing.Rectangle() With {
.X = 215,
.Y = 1250,
.Height = 280,
.Width = 1335
}
input.LoadPdf("example.pdf", ContentArea:= contentArea)
Dim result = ocr.Read(input)
End Using
APIリファレンス: OcrInput OcrInput.Page