OCRツール

Tesseractを使用して画像からテキストを取得する方法

Name: IronOCR
Brand: Iron Software
Availability: InStock
Rating: 4.86 (101 reviews)

更新日:2026年4月21日

IronOCRやTesseractのようなライブラリを活用することで、開発者は画像やスキャンされたドキュメントからテキスト情報を抽出するための高度なアルゴリズムと機械学習技術にアクセスできます。このチュートリアルでは、Tesseractライブラリを使用して画像からテキスト抽出を行う方法を読者に示し、最後にIronOCRの独自のアプローチを紹介します。

1. Tesseractを使用したOCR

1.1. Tesseractのインストール

NuGetパッケージマネージャーコンソールを使用し、次のコマンドを入力します。

Install-Package Tesseract

または、NuGetパッケージマネージャーからパッケージをダウンロードしてください。

OCRテキスト認識の取得方法図1：NuGetパッケージマネージャーでTesseractパッケージをインストール NuGet パッケージマネージャーで Tesseract パッケージをインストール

NuGetパッケージをインストールした後、言語ファイルを手動でインストールし、プロジェクトフォルダに保存する必要があります。これはこの特定のライブラリの欠点と考えられます。

言語ファイルをダウンロードするには、次のウェブサイトを訪問してください。ダウンロードしたら、ファイルを解凍し、"tessdata"フォルダをプロジェクトのデバッグフォルダに追加します。

1.2. Tesseractの使用 (クイックスタート)

与えられた画像でOCRを実行するには、以下のソースコードを使用します。

using Tesseract;

class Program
{
    static void Main()
    {
        // Initialize Tesseract engine with English language data
        using var ocrEngine = new TesseractEngine(@"tessdata", "eng", EngineMode.Default);

        // Load the image to be processed
        using var img = Pix.LoadFromFile("Demo.png");

        // Process the image to extract text
        using var res = ocrEngine.Process(img);

        // Output the recognized text
        Console.WriteLine(res.GetText());
        Console.ReadKey();
    }
}

using Tesseract;

class Program
{
    static void Main()
    {
        // Initialize Tesseract engine with English language data
        using var ocrEngine = new TesseractEngine(@"tessdata", "eng", EngineMode.Default);

        // Load the image to be processed
        using var img = Pix.LoadFromFile("Demo.png");

        // Process the image to extract text
        using var res = ocrEngine.Process(img);

        // Output the recognized text
        Console.WriteLine(res.GetText());
        Console.ReadKey();
    }
}

Imports Tesseract

Friend Class Program
	Shared Sub Main()
		' Initialize Tesseract engine with English language data
		Dim ocrEngine = New TesseractEngine("tessdata", "eng", EngineMode.Default)

		' Load the image to be processed
		Dim img = Pix.LoadFromFile("Demo.png")

		' Process the image to extract text
		Dim res = ocrEngine.Process(img)

		' Output the recognized text
		Console.WriteLine(res.GetText())
		Console.ReadKey()
	End Sub
End Class

$vbLabelText $csharpLabel

最初に、TesseractEngine オブジェクトを作成し、エンジンに言語データを読み込みます。
Pix.LoadFromFile を使用して、目的の画像ファイルを読み込みます。
TesseractEngine に画像を渡し、Process メソッドを使ってテキストを抽出します。
GetText メソッドで認識されたテキストを取得し、コンソールに出力します。

OCRテキスト認識の取得方法図2：画像から抽出されたテキスト 画像から抽出されたテキスト

1.3 Tesseractの考慮事項

Tesseractはバージョン3.00以降、出力テキストのフォーマット、OCRの位置データ、ページレイアウト解析をサポートしています。
TesseractはWindows、Linux、MacOSで利用可能ですが、主にWindowsとUbuntuで意図通りに動作することが確認されています。
Tesseractは等幅テキストと比例間隔テキストを区別できます。
OCRopusのようなフロントエンドを利用して、Tesseractはバックエンドとして使用するのに理想的であり、レイアウト解析などのより複雑なOCRジョブに利用できます。
Tesseractのいくつかの欠点:
- 最新のビルドはWindows上でコンパイルするように設計されていません
- TesseractのC# APIラッパーは頻繁には更新されておらず、Tesseractの新しいリリースに数年遅れています

C#でのTesseractに関する詳細情報はTesseractチュートリアルをご覧ください。

2. IronOCRを使用したOCR

2.1. IronOCRのインストール

NuGetパッケージマネージャーコンソールに次のコマンドを入力します。

Install-Package IronOcr

または、他の言語用の追加パッケージとともにNuGetパッケージマネージャーからIronOCRライブラリをインストールします。これらは簡単かつ便利に使用できます。

OCRテキスト認識の取得方法図3：NuGet パッケージマネージャーを介してIronOCRと言語パッケージをインストール NuGetパッケージマネージャを介してIronOCRと言語パッケージをインストールする

2.2. IronOCRの使用

以下は、与えられた画像からテキストを認識するサンプルコードです。

using IronOcr;

class Program
{
    static void Main()
    {
        // Create an IronTesseract instance with predefined settings
        var ocr = new IronTesseract()
        {
            Language = OcrLanguage.EnglishBest,
            Configuration = { TesseractVersion = TesseractVersion.Tesseract5 }
        };

        // Create an OcrInput instance for image processing
        using var input = new OcrInput();

        // Load the image to be processed
        input.AddImage("Demo.png");

        // Process the image and extract text
        var result = ocr.Read(input);

        // Output the recognized text
        Console.WriteLine(result.Text);
        Console.ReadKey();
    }
}

using IronOcr;

class Program
{
    static void Main()
    {
        // Create an IronTesseract instance with predefined settings
        var ocr = new IronTesseract()
        {
            Language = OcrLanguage.EnglishBest,
            Configuration = { TesseractVersion = TesseractVersion.Tesseract5 }
        };

        // Create an OcrInput instance for image processing
        using var input = new OcrInput();

        // Load the image to be processed
        input.AddImage("Demo.png");

        // Process the image and extract text
        var result = ocr.Read(input);

        // Output the recognized text
        Console.WriteLine(result.Text);
        Console.ReadKey();
    }
}

Imports IronOcr

Friend Class Program
	Shared Sub Main()
		' Create an IronTesseract instance with predefined settings
		Dim ocr = New IronTesseract() With {
			.Language = OcrLanguage.EnglishBest,
			.Configuration = { TesseractVersion = TesseractVersion.Tesseract5 }
		}

		' Create an OcrInput instance for image processing
		Dim input = New OcrInput()

		' Load the image to be processed
		input.AddImage("Demo.png")

		' Process the image and extract text
		Dim result = ocr.Read(input)

		' Output the recognized text
		Console.WriteLine(result.Text)
		Console.ReadKey()
	End Sub
End Class

$vbLabelText $csharpLabel

このコードは、言語とTesseractバージョンを設定して、IronTesseract オブジェクトを初期化します。
次に、AddImage メソッドを使用して画像ファイルを読み込むOcrInput オブジェクトを作成します。
Read メソッドは IronTesseract で画像を処理し、テキストを抽出し、それをコンソールに出力します。

OCRテキスト認識の取得方法図4：IronOCRライブラリを使用した抽出テキストの出力 IronOCRライブラリを使用した抽出テキスト出力

2.3 IronOCRの考慮事項

IronOCRはTesseractライブラリの拡張版であり、より安定性が高く、高精度を提供します。
IronOCRは、PDFや写真からテキストコンテンツを読み取ることができます。さらに、20を超える種類のバーコードやQRコードも読み取ることができます。
出力はプレーンテキスト、構造化データ、バーコード、QRコードとしてレンダリングできます。
このライブラリは、世界中の125言語を認識します。
IronOCRはすべて for .NET環境で柔軟に動作し（コンソール、Web、デスクトップなど）、Mono、Xamarin、Azure、MAUIなどの最新のモバイルフレームワークもサポートしています。
IronOCRは無料の試用版を提供しており、開発エディションはより低価格です。ライセンスについて詳しくはこちらをご覧ください。

詳細なIronOCRチュートリアルについては、この記事を参照して画像からC#でテキストを読み取る方法を学んでください。

Kannapat Udonpant

今すぐエンジニアリングチームとチャット

ソフトウェアエンジニア

ソフトウェアエンジニアになる前に、Kannapatは北海道大学で環境資源の博士号を修了しました。博士号を追求する間に、彼はバイオプロダクションエンジニアリング学科の一部である車両ロボティクスラボラトリーのメンバーになりました。2022年には、C#のスキルを活用してIron Softwareのエンジニアリングチームに参加し、IronPDFに注力しています。Kannapatは、IronPDFの多くのコードを執筆している開発者から直接学んでいるため、この仕事を大切にしています。同僚から学びながら、Iron Softwareでの働く社会的側面も楽しんでいます。コードやドキュメントを書いていない時は、KannapatはPS5でゲームをしたり、『The Last of Us』を再視聴したりしていることが多いです。

顧客ハイライト:

開発者スポットライト:

ウェビナー:

無料30日間のトライアルを開始

Tesseractを使用して画像からテキストを取得する方法

1. Tesseractを使用したOCR

1.1. Tesseractのインストール

1.2. Tesseractの使用 (クイックスタート)

1.3 Tesseractの考慮事項

2. IronOCRを使用したOCR

2.1. IronOCRのインストール

2.2. IronOCRの使用

2.3 IronOCRの考慮事項

ライセンスキーがメールボックスに配信されました

デモリクエストが受け付けられました。

アイアンサポートチーム

無料30日間のトライアルを開始

Tesseractを使用して画像からテキストを取得する方法

1. Tesseractを使用したOCR

1.1. Tesseractのインストール

1.2. Tesseractの使用 (クイックスタート)

1.3 Tesseractの考慮事項

2. IronOCRを使用したOCR

2.1. IronOCRのインストール

2.2. IronOCRの使用

2.3 IronOCRの考慮事項

関連する記事

Power Automate OCR（開発者向けチュートリアル）

Easyocr対Tesseract （OCR機能の比較）

画像をテキストに変換する方法

次のステップ：30日間の無料トライアルを開始

Thank You

次のステップ：30日間の無料トライアルを開始

IronSuiteを実際のプロジェクトに無料で導入してみませんか？

含まれているものは？

ライセンスキーがメールボックスに配信されました

デモリクエストが受け付けられました。

世界中の数百万人のエンジニアから信頼されています。

アイアンサポートチーム