OCRツール

Tesseract Ocr を Windows で使用する (コード例チュートリアル)

更新済み 4月 7, 2022
共有:

Tesseract OCRとは何ですか?

Tesseractは、さまざまなオペレーティングシステムで使用できる光学文字認識エンジンです。 このソフトウェアは無償で提供され、Apacheライセンスの下でリリースされています。 このガイドでは、私がWindows 10マシンにTesseractをインストールするために行った手順を紹介します。メジャーバージョン5は現在の安定版であり、2021年11月30日にリリース5.0.0から始まりました。


ステップ 1: .exeファイルを使用してWindows 10にTesseract OCRをインストールする:

言語データをインストールするには、次のコマンドを実行してください:sudo port install tesseract -<jp> MacPorts TesseractページのHomebrewには言語コードのリストがあります。 Tesseract OCRをWindowsにインストールする最初のステップは、使用しているマシンのオペレーティングシステムに対応する.exeインストーラをダウンロードすることです。

手順2: インストールの構成

次に、Tesseractのインストールを構成する必要があります。 自信があり、デフォルトの言語を英語に設定してWindows用のTesseract OCRを実行したい場合、すべてのデフォルトオプションを選択してインストール画面を進めると、問題なく実行できるはずです。

インストーラー言語

これは、ダイアログボックスと言語ヘルプ情報のための言語です。 必要に応じて、Tesseract OCR for Windowsを複数の言語で実行することができます。

Windows用Tesseract OCRのインストーラー言語

Tesseract OCR セットアップ

セットアップ画面では、インストールを続行する前に他のすべてのアプリケーションを閉じることを推奨しています。

Windows用Tesseract OCRのインストール画面。

インストール場所を選択

次に、インストール先を選択します。 次のステップに進む前に、インストール場所を .txt ファイルにコピーしてください。インストールが完了したら、インストール場所をマシンの環境変数に追加する必要があります。

インストール場所を選択してください。

コンポーネントを選択

デフォルトでは、ScrollView、Training Tools、Shortcuts作成、およびLanguageデータがすべて選択されています。 特定の理由がない限り、これらすべてを選択したままにしておきます。

WindowsインストールコンポーネントのデフォルトのTesseract OCR

下にスクロールして「追加スクリプトデータ」を展開すると、追加のスクリプトデータをダウンロードおよびインストールするオプションがあることがわかります。 これは特定のスクリプト言語からのテキスト抽出の精度を向上させるのに役立ちます。 インストールするかどうかはあなた次第です。

オプションのスクリプトインストールコンポーネント。

「スタートメニューフォルダを選択」

インストールの最終ステップで、Windowsのショートカット用のTesseract OCRのスタートメニューフォルダーを選択するように求められます。 私はデフォルトの名前「Tesseract-OCR」に設定したままにしています。

Tesseract OCR for Windows ショートカット用のスタートメニューフォルダーを選択してください。

「インストール」をクリックすると、Tesseract OCR for Windowsのインストールが開始されます。 次のステップは、インストールパスをマシンの環境変数に追加することです。

ステップ 3: 環境変数にインストールパスを追加

コントロールパネル

インストール場所を環境変数に追加するには、スタートメニューに行き、『環境変数』を検索してください。 システム環境変数を編集するための結果が表示されるはずです。 以下の手順を使用することもできます:スタートメニュー > コントロールパネル > システム環境変数の編集

'環境変数'の検索

システムプロパティ

「システムのプロパティ」ダイアログボックスが表示されたら、「詳細設定」タブがクリックされていることを確認し、画面の右下にある「環境変数」ボタンをクリックします。

環境変数

システム変数の下にある編集ボタンをクリックします。

環境変数の編集」画面が表示されたら、新規ボタンをクリックし、ステップ2でコピーしたTesseract OCRのインストールパスを貼り付けます。これが完了したら、‘OK’ボタンをクリックしてください。

環境変数にTesseract OCR for Windowsのインストールディレクトリを追加する

以上です。! .exeインストーラーを実行し、Tesseract OCR for Windowsのインストール場所を環境変数に追加したので、テスト画像でTesseractを実行してインストールが正常に動作しているか確認できます。

ステップ4: テスト画像でTesseract OCR for Windowsを実行する

Tesseract OCR for Windowsが正常にインストールされたことをテストするには、コンピュータでコマンドプロンプトを開き、Tesseract コマンドを実行してください。 出力には、Tesseractの使用オプションに関する簡単な説明が表示されるはずです。

Windows用Tesseract OCRのインストールが成功したか確認する

おめでとうございます! Tesseract OCR for Windowsのインストールに成功しました。


IronOCRを使用してOCR作業を行う利点:

IronOCR 次のためにMac、Windows、Linux、Azure、Docker上でTesseract OCRを提供します:

  • .NET Framework 4.0以上
  • .NET Standard 2.0 以上

  • .NET Core 2.0以降

    .NET 5

  • macOSおよびLinux用Mono
  • macOS用Xamarin

    IronOCRは、最新のTesseract 5エンジンを使用して、すべての主要な画像とPDF形式からテキスト、バーコード、およびQRコードを読み取ります。このライブラリは、デスクトップ、コンソール、およびWebアプリケーションに数分でOCR機能を追加します。 127以上の国際言語に対応しています。 ライセンス $599から始めます。

ステップ1: 最新バージョンのIronOCRをインストールする

DLLをインストール

ダウンロード IronOCR DLL 直接あなたのマシンへ。

NuGet をインストールする

また、NuGetを介してインストールすることもできます。

Install-Package IronOcr

手順 2: ライセンスキーを適用する

コードを使用してIronOCRライセンスキーを設定する

アプリケーションの起動時にIronOCRを使用する前に、このコードを追加してください。

IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01";
IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01";
IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01"
VB   C#

ステップ 3: キーをテストする

キーが正しくインストールされているかテストしてください。

BoolresultIronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF0");
BoolresultIronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF0");
BoolresultIronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF0")
VB   C#

プロジェクトを始めましょう

// PM > Install-Package IronOcr
// using IronOcr;

var Ocr = new IronTesseract();

// Hundreds of languages available
Ocr.Language = OcrLanguage.English;

using (var Input = new OcrInput())
{
   OcrInput.Add(@"img\example.tiff")
   // Input.DeNoise();  optional 
   // Input.Deskew();   optional 

   IronOcr.OcrResult Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

   // Explore the OcrResult using IntelliSense
}
// PM > Install-Package IronOcr
// using IronOcr;

var Ocr = new IronTesseract();

// Hundreds of languages available
Ocr.Language = OcrLanguage.English;

using (var Input = new OcrInput())
{
   OcrInput.Add(@"img\example.tiff")
   // Input.DeNoise();  optional 
   // Input.Deskew();   optional 

   IronOcr.OcrResult Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

   // Explore the OcrResult using IntelliSense
}
' PM > Install-Package IronOcr
' using IronOcr;

Dim Ocr = New IronTesseract()

' Hundreds of languages available
Ocr.Language = OcrLanguage.English

Using Input = New OcrInput()
   OcrInput.Add("img\example.tiff") IronOcr.OcrResult Result = Ocr.Read(Input)

   Console.WriteLine(Result.Text)

' ' Explore the OcrResult using IntelliSense
End Using
VB   C#

C#および.NETでTesseract OCRを使用する方法

  • Google TesseractおよびIronOCR for .NETをVisual Studioにインストールする
  • C#の最新ビルドを確認する
  • 精度と画像の互換性を確認する
  • パフォーマンスとAPI機能をテストする

  • 多言語サポートを検討する

.NET OCR使用のコード例 — C#で画像からテキストを抽出

NuGetパッケージマネージャーを使用して、IronOCR NuGetパッケージをVisual Studioソリューションにインストールします。

// PM > Install-Package IronOcr
// using IronOcr;

var Ocr = new IronTesseract();

// Hundreds of languages available
Ocr.Language = OcrLanguage.English;

using (var Input = new OcrInput())
{
   OcrInput.Add(@"img\example.tiff")
   // Input.DeNoise();  optional 
   // Input.Deskew();   optional 

   IronOcr.OcrResult Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

   // Explore the OcrResult using IntelliSense
}
// PM > Install-Package IronOcr
// using IronOcr;

var Ocr = new IronTesseract();

// Hundreds of languages available
Ocr.Language = OcrLanguage.English;

using (var Input = new OcrInput())
{
   OcrInput.Add(@"img\example.tiff")
   // Input.DeNoise();  optional 
   // Input.Deskew();   optional 

   IronOcr.OcrResult Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

   // Explore the OcrResult using IntelliSense
}
' PM > Install-Package IronOcr
' using IronOcr;

Dim Ocr = New IronTesseract()

' Hundreds of languages available
Ocr.Language = OcrLanguage.English

Using Input = New OcrInput()
   OcrInput.Add("img\example.tiff") IronOcr.OcrResult Result = Ocr.Read(Input)

   Console.WriteLine(Result.Text)

' ' Explore the OcrResult using IntelliSense
End Using
VB   C#

IronOCR Tesseract for C

IronOCRでは、TesseractのインストールはすべてNuGetパッケージマネージャーを使用して行われます。

Install-Package IronOcr

IronOCR TesseractにおけるTesseract 5 API

現在のところ、IronTesseractは .NET Framework または Coreのための唯一知られているTesseract 5 の実装です。

// using IronOcr;

var Ocr = new IronTesseract(); // nothing to configure

using (var Input = new OcrInput(@"images\image.png"))
{
   var Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

}
// using IronOcr;

var Ocr = new IronTesseract(); // nothing to configure

using (var Input = new OcrInput(@"images\image.png"))
{
   var Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

}
' using IronOcr;

Dim Ocr = New IronTesseract() ' nothing to configure

Using Input = New OcrInput("images\image.png")
Dim Result = Ocr.Read(Input)

   Console.WriteLine(Result.Text)

End Using
VB   C#

IronOCR TesseractのTesseract 4 API

// using IronOcr;

var Ocr = new IronTesseract();

Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4;

using (var Input = new OcrInput(@"images\image.png"))

{

   var Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

}
// using IronOcr;

var Ocr = new IronTesseract();

Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4;

using (var Input = new OcrInput(@"images\image.png"))

{

   var Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

}
' using IronOcr;

Dim Ocr = New IronTesseract()

Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4

Using Input = New OcrInput("images\image.png")


Dim Result = Ocr.Read(Input)

   Console.WriteLine(Result.Text)

End Using
VB   C#

なぜIronOCRはTesseractより優れているのか:

正確性

テッセラクト

Tesseractが回転している、傾いている、低DPIの画像やスキャンされた画像、または背景ノイズがある画像に遭遇すると、その画像からデータを取得することはほぼ不可能になります。 さらに、Tesseractはそのドキュメントを処理するのに非常に長い時間がかかり、その後で無意味な情報を提供することになります。

IRONOCR:

IronOCRはこの悩みを取り除きます。 利用者は、最小限の構成で99.8-100%の精度を達成することが多いです。

画像互換性

テッセラクト

Leptonica PIX 画像形式のみを受け入れ、これは C# の IntPtr C++ オブジェクトです。 PIXオブジェクトは管理メモリーではありません— C#で適切に取り扱わないとメモリーリークが発生します。

IRONOCR:

画像はメモリ管理されています。 PDFとTiffに対応。 システム。 すべてのファイル形式に対して、Drawing、Stream、およびByte Arrayが含まれています。

広範な画像サポート:

  • PDFドキュメント
  • PDFページ
  • マルチフレームTIFFファイル
  • JPEG & JPEG2000 (ジェイペグ & ジェイペグ2000)

    GIF

    PNG

  • System.Drawing.Image (システム ドローイング イメージ)
  • バイナリ画像データ (バイト [])

  • その他にも様々な機能があります...

パフォーマンス

テッセラクト

Google Tesseractは、適切に調整され、入力画像がPhotoshopやImageMagickを使用して前処理されている場合、迅速かつ正確な結果を得ることができます。

IRONOCR:

IronOCR .NET Tesseract DLLは、ほとんどの画像に対して、特に設定を行わなくても精度高く、かつ高速に動作します。 私たちは、現在ほとんどのマシンで使用されているマルチコアプロセッサを活用するためにマルチスレッドを実装しました。 低解像度の画像でも、あなたのプログラムで高精度に動作することが一般的です。 PhotoShopは不要です。 APIについて翻訳します。

API

API(Application Programming Interface)は、異なるソフトウェアアプリケーション間での通信を可能にする一連の定義およびプロトコルです。IronPDFやIronOCRなどのIron Software製品では、APIを利用してPDF操作やOCR処理などの機能をプログラム内から呼び出すことが可能です。次に、各主要製品のAPI概要を示します。

IronPDF for .NET

IronPDF for .NET APIを使用すると、.NETアプリケーションからPDFファイルの生成、編集、変換、保存が簡単に行えます。プログラマーは、HTMLや既存のPDFドキュメントから新しいPDFを生成したり、既存のPDFを操作したりすることができます。

IronOCR for .NET

IronOCR for .NET APIを使用すると、画像やPDFからテキストを抽出することができます。このAPIは、高精度な光学文字認識(OCR)機能を提供し、プログラム内での簡単なテキスト抽出を可能にします。

IronXL for .NET

IronXL for .NET APIは、.NETアプリケーションからExcelファイルの読み書きを行うための強力なツールです。Excelファイルの生成、編集、ならびにデータの解析が簡単に実装できます。

IronBarcode for .NET

IronBarcode for .NET APIを使用すると、バーコードの生成と読み取りが可能です。様々なバーコード形式をサポートし、迅速かつ正確なバーコード処理を実現します。

IronQR for .NET

IronQR for .NET APIは、QRコードの生成およびデコードをするためのツールです。QRコードを簡単に作成し、それを用いてデータの共有や保存を効率化します。

IronZIP for .NET

IronZIP for .NET APIを利用して、ZIPファイルの作成、展開、操作を行うことができます。圧縮・解凍作業を簡潔に行えるため、ファイル管理が容易になります。

IronWord for .NET

IronWord for .NET APIは、Word文書(.docx)の生成、編集、読み取りをシンプルに行うための機能を提供します。テキスト、イメージ、テーブルの操作など、多岐にわたる操作が可能です。

IronWebscraper for .NET

IronWebscraper for .NET APIを使用すると、ウェブからデータを効率的に抽出できます。ウェブスクレイピング作業を自動化し、必要な情報を迅速に収集できます。

Iron Softwareの各製品は、各言語に特化したAPIを提供しており、それらを活用することで、より効率的で高性能なアプリケーション開発が可能となります。

テッセラクト

無料で2つの選択肢があります:

  • Interopレイヤーを扱う — GitHubで見つかるものの多くは、古くなっており、解決されていないチケットやメモリリーク、コンソール警告が存在します。 .NET CoreまたはStandardをサポートしていない可能性があります。
  • コマンドラインEXEで作業する — 導入が困難で、ウイルススキャナーやセキュリティポリシーによって常に中断される。

IRONOCR:

Tesseract用の管理およびテスト済みの.NETライブラリであるIronTesseract。

IntelliSenseサポートが付いた完全なドキュメント。

言語

テッセラクト

100言語のみサポート。

IRONOCR:

127以上の言語に対応。


結論

TesseractはC++開発者にとって優れたリソースですが、.NETにとって完全なOCRライブラリではありません。 スキャンされた画像や撮影された画像は、Tesseract が正確に動作できるように、直交、標準化、高解像度、およびデジタルノイズがない状態に処理される必要があります。

それに対して、IronOCRはわずか1行のコードでこれをはじめ、さらに多くのことができます。 IronOCRが使用されることは事実です テッセラクト 内部のOCRエンジンとして、C#向けに構築された非常に精巧に調整されたテッセラクトであり、多くのパフォーマンス向上と標準機能が追加されています。

< 以前
オンラインOCRコンバーター — 無料オンラインツール
次へ >
Windows 11でのOCR(無料オンラインツール)

準備はできましたか? バージョン: 2024.9 新発売

無料のNuGetダウンロード 総ダウンロード数: 2,290,361 View Licenses >