OCRツール

文字をテキストにスキャンする方法(初心者向けチュートリアル)

公開済み 2023年11月29日
共有:

イントロダクション

デジタル情報の世界では、スキャンした文書から手書きや印刷されたテキストを編集可能で検索可能な形式に変換する能力が非常に重要になっています。 光学文字認識 (OCR)(OCR (光学式文字認識))技術はこのプロセスにおいて重要な役割を果たしており、画像からテキスト情報を抽出することを可能にしています。

この記事では、オープンソースのOCRエンジンであるTesseractを使用して、スキャン文字のテキスト化の基本を探り、その後の紹介を行います。IronOCR以下のコード例と共に、手書き、デジタルテキスト、およびスキャンしたドキュメントを編集可能なテキストに変換するための強力で高度な機能を備えた代替手段として。

OCR技術の理解

OCR技術は、画像内の印刷または手書き文字のパターンを認識し解釈するために高度なアルゴリズムを利用します。 これは本質的に物理的な世界とデジタル世界のギャップを埋めるものであり、スキャンされたドキュメント、スキャンされた手書き、PDF、スキャンされた画像ファイル、さらには手書きの筆跡など、さまざまなソースからテキストをキャプチャしてデジタル化することができます。

Tesseract: オープンソースのOCRソリューション

テッセラクトの理解

テッセラクトGoogleによって開発されたオープンソースOCRエンジンであり、手書きのテキスト、スキャン画像、PDFドキュメントなど、さまざまな種類のスキャンされた文書を機械判読可能な編集可能なテキストに変換するために広く使用されています。 それは複数の言語をサポートし、その正確性と多様性で人気を集めています。 Tesseractを使用したスキャン文書からテキストへの変換における主要な特徴と手順について詳しく見ていきましょう。

Tesseractの主な特徴

  1. 多様性: Tesseractは、スキャンされた文書、画像、PDFなど、多様なアプリケーションに適した幅広い入力形式に対応しています。

  2. 言語サポート: Tesseractは複数の言語のテキストを認識するように設計されており、異なる言語の文書を扱う国際的なユーザーや開発者にとって柔軟なソリューションとなります。

  3. オープンソースコミュニティ:Tesseractのオープンソースの性質は、その改善に貢献する開発者の強力なコミュニティを生み出しました。 定期的な更新と強化により、Tesseractは競争力のあるOCRソリューションであり続けます。

  4. OCR精度: Tesseractは、異なるフォント、スタイル、画像品質の複雑なシナリオにおいても、テキスト認識の精度の高さで知られています。

Tesseractを使用する手順

手書きのメモを変換したり、Windowsで判読不能な手書きを解読したりするためにTesseract OCRを使用するには、いくつかの手順が必要です。 基本ガイドはこちらです:

  1. Tesseract OCRをインストール:

    • 公式GitHub UB MannheimリポジトリからWindows用のTesseractインストーラーをダウンロードしてください:Tesseract OCR エグゼ.

    • インストーラーを実行し、画面の指示に従ってインストールを完了してください。

    Tesseract OCRインストーラを使用してTesseractをインストールします。

    • インストール場所を選択し、そのパスを記憶してください。後でPath変数に設定する際に使用されます。

    Tesseractをシステムにインストールするための保存先フォルダの場所を選択してください。

  2. 環境変数の設定:

    • TesseractのインストールディレクトリをシステムのPATH環境変数に追加します。 これは、Tesseract実行ファイルがどのコマンドプロンプトウィンドウからでもアクセス可能であることを保証します。

    システムプロパティで、TesseractインストールディレクトリのパスをシステムのPATH環境変数に追加します。 これは、Tesseract実行ファイルがどのコマンドプロンプトウィンドウからでもアクセス可能であることを保証します。環境変数ボタンをクリックしてください。 環境変数ウィンドウで、「システム変数の編集」をクリックします。編集環境変数タブの中で、「新規」ボタンをクリックし、Tesseractディレクトリのパスを指定します。 「OK」をクリック。

  3. コマンドラインの使用法:

    • コマンドプロンプトウィンドウを開き、画像またはスキャンされた手書き文書を含むディレクトリに移動します。

    • 次のコマンドを使用して画像に対してOCRを実行し、結果をテキストファイルに出力します:
    tesseract input_image.png output_text.txt
    tesseract input_image.png output_text.txt
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'tesseract input_image.png output_text.txt
VB   C#

入力画像ファイルの名前を input_image.png から指定する画像ファイル名に変更し、出力テキストファイルの名前を output_text.txt から希望する出力テキストファイル名に変更してください。

  1. ポストプロセッシング: 要件に応じて、抽出されたテキストを洗練するために、不要な文字やフォーマットを削除するなどのポストプロセッシング手順が必要になる場合があります。

    Tesseractは強力なツールですが、開発者は追加機能、カスタマイズオプション、およびアプリケーションへの統合の容易さを提供する代替手段をしばしば探します。 ここはIronOCR登場します。

IronOCRを紹介します: スキャンした手書きをテキストに変換します。

IronOCRを理解する

IronOCRは、Tesseractの機能を超えて、開発者向けの高度な機能とカスタマイズオプションを提供する.NET OCRライブラリです。 スキャンされた文書、画像、またはスキャンされたPDFを使用する場合でも、IronOCRは正確なテキスト抽出のための強力なソリューションを提供します。 IronOCRの主な機能と、スキャンした文章をテキストに変換するプロセスをどのように向上させるかを見てみましょう。

IronOCRの主な機能

  1. 正確性: IronOCR は最先端のOCRアルゴリズムを利用し、テキスト認識の高い精度を保証します。 それは低品質の画像や複雑なフォントなど、困難な状況で優れた性能を発揮します。

  2. 多用途性: 画像やPDFファイルなど、さまざまな入力フォーマットをサポートするIronOCRは、多様な使用シーンに適応し、開発者にとって多用途な選択肢となります。

  3. 言語サポート: IronOCR は多国籍の言語をサポートすることで、グローバルな観客に対応し、異なる言語環境で文書の効果的なOCR処理を保証します。

  4. 統合の容易さ: IronOCRの際立った特徴の一つは、その.NETアプリケーションへのシームレスな統合です。 開発者はIronOCRをプロジェクトに簡単に組み込むことができ、効率的なOCR機能の実装が可能になります。

IronOCR: コード例

させていただきますが、具体的なコンテキストや文章が含まれていません。翻訳を行うために、もう少し詳細な情報や完全な文章を提供していただけますか?例えば、Iron Software製品に関する具体的な記述などです。IronTesseract 5.NETアプリケーションでIronOCRを使用するコードスニペット:

using IronOcr;

class Program
{
    static void Main()
    {
        var ocrTesseract = new IronTesseract();

    // This is done by default and can be omitted:
    // ocrTesseract.Configuration.TesseractVersion = TesseractVersion.Tesseract5;

    using (var ocrInput = new OcrInput(@"images\image.png"))
    {
        var ocrResult = ocrTesseract.Read(ocrInput);
        Console.WriteLine(ocrResult.Text);
    }
    }
}
using IronOcr;

class Program
{
    static void Main()
    {
        var ocrTesseract = new IronTesseract();

    // This is done by default and can be omitted:
    // ocrTesseract.Configuration.TesseractVersion = TesseractVersion.Tesseract5;

    using (var ocrInput = new OcrInput(@"images\image.png"))
    {
        var ocrResult = ocrTesseract.Read(ocrInput);
        Console.WriteLine(ocrResult.Text);
    }
    }
}
Imports IronOcr

Friend Class Program
	Shared Sub Main()
		Dim ocrTesseract = New IronTesseract()

	' This is done by default and can be omitted:
	' ocrTesseract.Configuration.TesseractVersion = TesseractVersion.Tesseract5;

	Using ocrInput As New OcrInput("images\image.png")
		Dim ocrResult = ocrTesseract.Read(ocrInput)
		Console.WriteLine(ocrResult.Text)
	End Using
	End Sub
End Class
VB   C#

以下の例では、IronOCR はよりシンプルでオブジェクト指向のアプローチを提供し、開発者が効率的な IronTesseract 5 OCR エンジンを使用して、印刷されたテキストや手書きのテキストを画像から直接読み取ることができます。詳細な情報については、こちらをご覧ください。ドキュメントページ

結論

Tesseractは依然として強力なオープンソースのOCRエンジンですが、IronOCR.NETエコシステム内で作業する開発者向けに、強化された機能、カスタマイズオプション、および統合の容易さを提供します。 TesseractとIronOCRの選択は、プロジェクトの具体的な要件とOCRプロセスに対する制御の度合いによって異なります。 スキャンされた文書からの正確なテキスト抽出の需要が高まる中、IronOCRのようなOCRツールは、情報アクセスの未来とデジタル文書管理の構築において重要な役割を果たしています。

IronOCR は無料試用ユーザーがその高度なOCR機能を体験するために、商用ライセンスプロフェッショナルおよび商業用には必須です。 IronOCRのフルポテンシャルを探るために、ソフトウェアライブラリを直接ダウンロードしてください。公式ウェブサイト.

< 以前
アラビア語テキスト認識ツール:精度の向上
次へ >
PythonでOCRを構築する方法