IRONOCRの使用

C#でスクリーンショットからテキストをOCRで取得する方法

更新済み 2023年12月18日
共有:

多くの人々は「OCRスクリーンショットとは何か?」と疑問に思うかもしれません。他の人々は、テキストのスクリーンショットをデジタルテキスト編集可能な形式、または.txtや.doc形式に変換する方法について疑問に思うかもしれません。 以下のような方であれば、これ以上心配する必要はありません。私たちがそのための完璧なソリューションを提供します。

この記事では、スクリーンショットに対してOCR(光学文字認識)を行うための様々なツールについて説明します。

多くのOCRツールが存在しますが、今日はIronOCRスクリーンショットからテキストを抽出するために。

1. IronOCR

IronOCRは、開発者がOCR機能を組み込むことができるように設計されたC#およびVB.NETプログラミング言語用のソフトウェアライブラリです。(光学文字認識)アプリケーションに機能を追加すること。 このライブラリを使用して画像内のテキストを認識し、それを機械可読テキストに変換することができます。 ライブラリは、最も正確なOCRエンジンの一つとされるTesseract OCRエンジンに基づいて構築されています。

IronOCRは、PNG、JPG、TIFF、PDFを含むさまざまなファイル形式の画像からテキストを読み取るために使用できます。 また、IronOCRは複数の言語を認識する機能や、回転や歪んだ画像からのテキスト認識機能など、テキスト認識に関する高度な機能の幅広い提供も行っています。 さらに、開発者はIronOCRを使用して、OCR機能を迅速にアプリケーションに統合できます。IronOCRは、C#やVB.NETコードから呼び出すことができるシンプルで使いやすいAPIを提供しています。 IronOCRを使用すると、OCR言語を選択し、画像、デジタルPDFファイル、スキャンされたPDFファイルに対してOCRを実行できます。

IronOCRは、アプリケーションにOCR機能を追加したい開発者にとって良いオプションと見なされています。 オープンソースで、使いやすく統合しやすく、高速で正確、最新のOCR技術に対応しています。

2. IronOCRの機能

IronOCRは、開発者が自分のアプリケーションにOCR機能を統合するのを支援する幅広い機能を提供します。 IronOCRの主な機能には以下が含まれます:

1.マルチ言語サポート: IronOCRは英語、スペイン語、ドイツ語、フランス語、イタリア語、中国語を含む60以上の言語でテキストを認識できます。

  1. テキストの方向の自動検出: IronOCRは、画像が回転または傾斜されている場合でも、画像内のテキストの向きを自動的に検出できます。

  2. 幅広い画像フォーマットのサポート: IronOCR は、PNG や JPG など、さまざまなファイル形式の画像からテキストを読み取ることができます。TIFF、およびPDF.

  3. カスタマイズ可能な認識設定:開発者は、特定の画像タイプや使用ケースに対する認識精度を向上させるために、認識設定をカスタマイズすることができます。

  4. 複数ページのスキャン文書やPDFからテキストを認識する機能。

  5. 高速認識および高精度:IronOCRは、最も正確で広く使用されているOCRエンジンの一つであるTesseract OCRエンジンを使用しています。

  6. 使いやすいAPI: IronOCRは、C#またはVB.NETコードから呼び出すことができるシンプルで使いやすいAPIを提供しており、任意のアプリケーションにOCR機能を簡単に統合することができます。

    全体として、IronOCRは、開発者が自分のアプリケーションにOCR機能を追加するのを助ける幅広い機能を提供する強力なツールです。

Visual Studio で新しいプロジェクトを作成する方法

Visual Studioを開き、ファイルメニューに移動します。 「新しいプロジェクト」を選択し、その後に「コンソールアプリケーション」を選択します。

プロジェクト名を入力し、適切なテキストボックスにパスを選択してください。 次に、「Create」ボタンをクリックします。 以下のスクリーンショットのように、必要な .NET フレームワークを選択してください。

スクリーンショットからテキストをOCRで取得する方法(C#)図1:Visual Studioで新しいプロジェクトを作成

Visual Studio で新しいプロジェクトを作成する

Visual Studioプロジェクトは、これからコンソールアプリケーションの構造を生成します。 完了すると、program.csファイルが開き、その中でソースコードを書き、実行することができます。

スクリーンショットからテキストをOCRで取得する方法(C#) 図2:Visual Studioの新しいプロジェクトウィザードから生成されたprogram.csファイル

Visual Studioの新しいプロジェクトウィザードから生成されたprogram.csファイル

これで、IronOCRライブラリを追加してプログラムをテストすることができます。

4. IronOCR のインストール

Visual Studioでは、C#プロジェクトにIronOCRを簡単に統合することができます。

IronOCRは、C# .NETプロジェクトに統合するための複数のプロセスを提供します。 ここでは、そのうちの1つを取り上げます:NuGetパッケージマネージャーを使用してIronOCRをインストールする方法について。

Visual Studioでツール > NuGetパッケージマネージャー > パッケージマネージャーコンソールに移動します。

スクリーンショットからテキストをOCRで取得するC#の方法、図3:NuGetパッケージマネージャーUI

NuGet パッケージ マネージャー UI

クリックすると、Visual Studioのウィンドウの下に新しいコンソールが表示されます。 コンソールに以下のコマンドを入力し、Enterキーを押してください。

Install-Package IronOcr

IronOCRは数秒でインストールされます。

スクリーンショットに対してOCRを実行するためにIronOCRを使用する

IronOCRは、スクリーンショットからテキストを認識するために使用できる強力なOCRライブラリです。 IronOCRを使用すると、テキストのスクリーンショットを撮り、その後ライブラリのOCR機能を使用してスクリーンショット内のテキストをデジタルで編集可能な形式に変換することができます。 以下は、C#でIronOCRを使用してスクリーンショットに対してOCRを実行する方法の例です。 スクリーンショット OCR を実行するには、スクリーンショットをキャプチャし、以下のコードを実行して任意の出力形式にテキストを抽出するだけです。

using IronOcr;
using System;

string imageText = new IronTesseract().Read("ocr.png").Text;
Console.WriteLine(imageText);
using IronOcr;
using System;

string imageText = new IronTesseract().Read("ocr.png").Text;
Console.WriteLine(imageText);
Imports IronOcr
Imports System

Private imageText As String = (New IronTesseract()).Read("ocr.png").Text
Console.WriteLine(imageText)
VB   C#

入力画像ファイル

スクリーンショットからテキストをOCRする方法 (C#の場合)、図4:入力に使用するサンプルスクリーンショット

入力に使用されるサンプルスクリーンショット

テキスト出力

- IRONOCR for NET
- The C# OCR Library
- OCR for C# to scan and read images & PDFs
- NET OCR library with 127+ global language packs
- Output as text, structured data, or searchable PDFs
- Supports NET 6, 5, Core, Standard, Framework

特定の領域に対してOCRを実行するためのIronOCRの使用方法

IronOCRを使用すると、画像内の特定のゾーンでOCRを実行できます。 画像に複数のテキスト領域が含まれている場合、特定の領域内のテキストのみを認識したいときに役立ちます。 以下にその例のコードを示します。

using IronOcr;
using IronSoftware.Drawing;
using System;

var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput())
{
    var contentArea = new CropRectangle(x: 0, y: 0, width: 350, height: 150);
    ocrInput.AddImage("ocr.png", contentArea);
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using IronSoftware.Drawing;
using System;

var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput())
{
    var contentArea = new CropRectangle(x: 0, y: 0, width: 350, height: 150);
    ocrInput.AddImage("ocr.png", contentArea);
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports IronSoftware.Drawing
Imports System

Private ocrTesseract = New IronTesseract()
Using ocrInput As New OcrInput()
	Dim contentArea = New CropRectangle(x:= 0, y:= 0, width:= 350, height:= 150)
	ocrInput.AddImage("ocr.png", contentArea)
	Dim ocrResult = ocrTesseract.Read(ocrInput)
	Console.WriteLine(ocrResult.Text)
End Using
VB   C#

出力

  • .NET用IRONOCR
  • C# OCRライブラリ
  • C#向けのOCR機能を使用して画像やPDFをスキャンおよび読み取る
  • 127以上のグローバル言語パックを持つ.NET OCRライブラリ

7. 画像に対してOCRを実行するためのIronOCRの使用

画像にOCRを実行し、認識されたテキストを.txtファイルに保存するには、次のコードを使用できます。

using IronOcr;
using System;

var ocr = new IronTesseract();
using (var input = new OcrInput("ocr.png"))
{
    var result = ocr.Read(input);
    result.SaveAsTextFile("output.txt");
}
using IronOcr;
using System;

var ocr = new IronTesseract();
using (var input = new OcrInput("ocr.png"))
{
    var result = ocr.Read(input);
    result.SaveAsTextFile("output.txt");
}
Imports IronOcr
Imports System

Private ocr = New IronTesseract()
Using input = New OcrInput("ocr.png")
	Dim result = ocr.Read(input)
	result.SaveAsTextFile("output.txt")
End Using
VB   C#

出力ファイルの内容は以下の通りです:

スクリーンショットからテキストをOCRで取得する方法 (C#)、図5: 生成されたoutput.txtファイルの内容

生成された output.txt ファイルの内容

詳細を学ぶ

続きを読む画像テキスト抽出画像でのOCRの実行方法に関する詳細については、チュートリアルをご覧ください。

IronOCRは、スイート異なる種類のドキュメントを処理するために設計された5つの.NETライブラリ。 5つのライブラリすべてを、2つのライブラリの価格で購入できますライセンス.

< 以前
C#チュートリアルで請求書からテキストを取得する方法
次へ >
C#で字幕のOCR(チュートリアル)