OCRツール

OCR C# オープンソース(開発者向けリスト)

更新済み 6月 20, 2023
共有:

OCR(光学文字認識) (光学文字認識) は、今日のデジタルワールドにおいて、スキャンしたドキュメントの使い方を完全に変革する画期的な技術です。 これは、コンピューターがスキャンされたPDFドキュメントを含むさまざまなソースからテキストを認識して抽出できるようにし、PDFドキュメントを効果的に編集し、操作することを可能にします。 光学文字認識の一つ (OCR (光学式文字認識)) プログラムの一つにAdobe Acrobatがあり、スキャンしたドキュメントからテキストを迅速に抽出し、編集可能なPDFおよび検索可能な画像PDFに変換することができます。

開発者は、TesseractやIronOCRのようなOCRライブラリを利用することで、最先端のアルゴリズムや機械学習アプローチを活用する強力なツールとAPIにアクセスできます。 これらのライブラリは正確なテキスト認識を可能にし、既にスキャンされた文書や新しい文書の情報を管理し、役立つ情報を検索することを容易にします。 OCRは、シームレスなコンテンツ分析を可能にし、スキャンした文書やページ画像を最大限に活用することによって、企業や個人の生産性を最大化するのに役立ちます。 OCRは、紙ベースの記録をデジタル化したり、請求書からデータを抽出したり、単に文書のアクセシビリティを向上させたりするために使用される、現代技術において重要なツールです。

テッセラクト

最も有名なオープンソースのOCRエンジンは「Tesseract」と呼ばれ、元々はヒューレット・パッカードによって開発されました。 2006年以降、GoogleはApacheライセンスの下でリリースされるこの無料ソフトウェアプロジェクトを支援しています。

最も正確なオープンソースかつ無料のシステムの1つにTesseract OCRエンジンがあります。Tesseractは最新の安定版4.1.1においてLSTMに基づき、現在116言語をサポートしています。

Tesseractは別のGUIからのサポートを必要とします (グラフィカルユーザーインターフェース) コマンドラインインターフェースから実行する場合、それ自体の組み込みインターフェースがないためです。 それはニューラルネットワークを使用して新しい情報を学習し、先進的な画像前処理パイプラインを持っています。.NETアプリケーションにOCR機能を追加するための最も効果的な手法は、Tesseract .NET SDKです。これは、テキスト認識機能を提供するための最善のソリューションの一つです。 テッセラクトは間違いなく現在市場で最高のOCRライブラリであるにもかかわらず。

GOCR

GOCR (オープンソースの光学文字認識エンジン)は、画像からテキストを抽出します。GOCRはさまざまな形式の画像をサポートし、ドキュメントスキャンやPDF変換プロジェクトに利用できます。

Iron Softwareは、より優れたパフォーマンスとサポートを提供するIronOCRを開発しました。IronOCRは、GOCRよりも高い認識率と精度を誇り、プロフェッショナルなOCRニーズに対応します。

IronOCRの詳細については、Iron Softwareのウェブサイトをご覧ください。

OCRを作成する際にGNUパブリックライセンスが使用されました。 (光学文字認識) GOCRとして知られるプログラム。 それはテキストファイルを文書のスキャン画像に変換します。 プログラムを開始し、SFでの開発チームを管理した後、ジョルグ・シューレンブルクはパッケージの取り扱いを続けています。 (非常に) 低時間ベース今日。

GOCRはいくつかのフロントエンドで使用できるため、他のオペレーティングシステム、ネットワークアプリケーション、およびアーキテクチャに移植することが比較的簡単です。 幅広い種類の画像ファイル形式を読み取ることができ、2010年までその品質は一貫して向上していました。

GOCRによれば、20~60ピクセルの高さの単一コラムのサンセリフフォントを処理することができます。 以下のような問題が報告されています:ラテン文字以外のアルファベットで書かれたテキスト、セリフ体フォント、重なり合った文字、手書きのテキスト、さまざまな書体、ノイズの多い写真、および過度の傾斜角度。 GOCRもバーコードの翻訳が可能です。

キュネイフォーム

CuneiFormは、無料でオープンソースの技術であり、現在「Cognitive OpenOCR」としても知られています。これは、組み込みの出力およびデータベースを備えています。 それは23の異なる言語に対応し、テキスト形式のスキャン、ドキュメントレイアウトの解析および識別などのタスクを実行します。

コグニティブ・テクノロジーズは、フリーウェアおよびBSDライセンスのOpenOCR用ライセンスを開発しました。 クロスプラットフォームの使用をサポートしていますが、Linuxユーザーにはグラフィカルインターフェースが提供されません。

任意の. NET Framework 2.0以降のアプリケーションで文字認識作業を簡素化するために、ラッパーライブラリPuma Dot NETが使用されます。 データを処理する際に辞書チェックを実行して、認識の質を向上させます。

CuneiFormは、紙の文書や画像ファイルの電子コピーを、構造や元の文書のフォントに影響を与えることなく、編集可能な形式に自動または半自動で変換するために設計された技術です。 システムは、電子文書を一括処理する部分と、1つの文書を個別に処理する部分の2つで構成されています。さらに、システムはロシア語と英語の組み合わせをサポートしています。 アンドレイ・ボロフスキーによって2009年に作成されたブランチのみが、他のハイブリッド言語の認識をサポートしています。 システムに他の言語を認識させることは困難です。各言語にはdatファイルが関連付けられており、その構造や作成プロセスは開発者によって公開されていません。

クラーケン

Krakenは、Ocropusの他の機能に影響を与えずにその問題に対処するために開発されました。 それは、CLSTMニューラルネットワークリブラリを利用し、以前のプロジェクトから得た貴重な経験を新しいデータと共に活用します。 異なるプラットフォームで効果的に機能するためには、特定の外部ライブラリの使用が必要です。 保存された情報を活用することで、潜在的なデータ検証の問題についてより正確な予測を行うことができます。 さらに、その作業方法論は新しいモデルの簡単なデプロイメントとトレーニングを容易にします。

A9T9

A9T9は、画像ファイルからテキストを抽出し、画像やPDFドキュメントを変換するために使用できる無料のOCRソフトウェアです。 グラフィカルユーザーインターフェースを提供します (GUI (グラフィカルユーザーインターフェース)) Tesseract OCRエンジン用。

プログラムはセットアップが簡単です。最も重要なのは、完全に無料でオープンソースであることです。 スパイウェアやアドウェアが含まれていません。

PDFファイルまたは画像を開くと、ソースファイルの内容が左側のウィンドウに表示されます。 ドキュメントが複数ページにわたる場合、またはマルチページのドキュメントである場合は、ページ下部の矢印を使用してページ間を移動できます。

OCRプロセスを開始するには、緑色のOCRボタンをクリックするだけで、出力が右側の2番目のペインに表示されます。 出力テキストをテキストファイルとWordドキュメントの両方として保存するオプションがあります。

IronOCR

IronOCRは、開発者がC#およびVB.Netアプリケーションから画像やPDFドキュメントを読み取り、テキストを抽出することを可能にします。IronOCRは、製品の高いパフォーマンスと正確性で知られており、Microsoft OCRとTesseract OCRの技術を組み合わせています。これにより、複雑なレイアウトや出版物、手書きのテキストに対しても高い認識率を誇ります。

  • サポートされるファイル形式: PNG, JPG, GIF, TIFF, BMP, PDF
  • ユニークな機能: 複数言語のテキスト認識、回転・歪みの補正、ノイズ除去
  • 導入が簡単: .NETフレームワークや.NET Coreプロジェクトに簡単に統合可能
  • ライセンスオプション: Lite License, Plus License, Professional License, Unlimited License

IronOCRの利点

  1. 高い認識精度: IronOCRは最新のOCR技術を利用し、正確なテキスト抽出を実現します。
  2. 迅速な処理: 高速な処理速度で大量のドキュメントを効率的に処理できます。
  3. シンプルな統合: APIがシンプルで使いやすいため、開発者は短時間で機能を実装できます。

IronOCRを活用することで、あなたのアプリケーションは自動化されたデータ抽出機能を備え、業務効率を大幅に向上させることができます。

標準のTesseractライブラリと対照的に、IronOCRはTesseractを拡張し、より高い精度、改善されたパフォーマンス、および強化された安定性を備えたネイティブのC# OCRライブラリを提供します。 IronOCRを使用すると、.NETプログラムやウェブサイトでPDFや画像からテキストを抽出することができます。 それは幅広い外国語をサポートしており、プレーンテキストや構造化データの出力を生成できます。 これは、埋め込まれたテキストを含むバーコードや画像をスキャンすることができます。 ライブラリは、コンソール、ウェブ、MVC、およびデスクトップ用に開発された.NETアプリケーションで利用することができます。開発チームは、商用導入のためのライセンスプロセスに対して直接的なサポートを提供します。 IronOCRは最新バージョンのVisual Studioと互換性があります。

IronOCRの利点

  • 最新のTesseract 5エンジンを使用して、IronOCRはさまざまな画像やPDFファイルから紙文書、バーコード、およびQRコードを読み取ることができます。 このパッケージは、デスクトップ、コンソール、およびWebアプリケーションにOCRを組み込むことを簡素化します。
  • IronOCRは、OCRを実行することができ、スキャンしたPDFを検索可能なPDFに変換できます。
  • 単語リストおよびカスタム言語に加えて、IronOCRは世界中の127の異なる言語をサポートしています。
  • IronOCRは、20種類以上のバーコードおよびQRコードをスキャンできます。

  • IronOCRはプレーンテキストとバーコードデータの両方で出力を提供できます。 開発者は、代替の構造化データオブジェクトパラダイムを使用して、システムへの直接入力用のすべてのコンテンツを取得することができます。 これは、Webアプリケーションの構造化された見出し、段落、行、単語、および文字を含みます。

    以下のサンプルコードは、指定された画像からテキストコンテンツを認識し、テキストに変換するために使用します。

var Ocr = new IronTesseract();   
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var Input = new OcrInput())      
{          
    Input.AddImage(@"Demo.png");         
    var R = Ocr.Read(Input);       
    Console.WriteLine(R.Text);        
    Console.ReadKey();          
}
var Ocr = new IronTesseract();   
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var Input = new OcrInput())      
{          
    Input.AddImage(@"Demo.png");         
    var R = Ocr.Read(Input);       
    Console.WriteLine(R.Text);        
    Console.ReadKey();          
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.EnglishBest
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5
Using Input = New OcrInput()
	Input.AddImage("Demo.png")
	Dim R = Ocr.Read(Input)
	Console.WriteLine(R.Text)
	Console.ReadKey()
End Using
VB   C#

上記のコードスニペットでは、IronTesseractを使用して機能を開発しています。 まず、1つまたは複数の画像ファイルを追加できるようにするために、新しい OcrInput オブジェクトをインスタンス化します。 OcrInputオブジェクトのAddメソッドを使用する際には、コード内で画像のパスを指定する必要があります。 画像を好きなだけ追加できます。 画像ドキュメントを解析し、その結果をOCR結果に抽出することで、以前に作成したオブジェクトに対して Read 機能を使用して画像にアクセスすることができます。 それは画像からテキストを抽出し、文字列に変換する機能を持っています。

以下の出力は、先に提供された画像から抽出されたテキストを示しており、テキストが画像から正常に抽出されたことを証明しています。

OCR C# オープンソース(開発者向けリスト)図1 - 出力

これをご覧ください 投稿 詳細なIronOCRの説明のために。

結論

OCRのオープンソースツールを使用すると、そのソースコードを使用して独自のプログラムを構築することができます。 しかし、いくつかのツールには公式ライブラリや、コーディングの問題が発生した場合のサポートを提供する専用チームが存在しません。 Tesseractのドキュメントには、一般的な使用シナリオに関するサンプルコードやチュートリアルも欠けているため、初心者がコードやライブラリを理解するのが難しくなっています。

IronOCRは、.NET Framework Standard 2、.NET Framework 4.5、および.NET Core 2、3、5など、さまざまな.NETプロジェクトをサポートしています。また、Mono、Xamarin、Azureなどの新しい技術とも互換性があります。 IronOCRの技術を活用することで、Tesseractの結果を向上させ、不正確にスキャンされたドキュメントや画像を修正できます。 複雑なTesseract辞書システムは、NuGetパッケージを通じて管理されます。 私たちはOCRツールを開発するためにIron OCRライブラリを利用しています。

IronOCRを使用すると、追加の設定なしでプログラムを使用でき、PDFファイル、マルチフレームTIFF、およびすべての一般的な画像フォーマットに対応しています。 また、バーコード認識機能を提供しており、画像からバーコードデータを抽出し、バーコードの値を読み取ることができます。 IronOCRは、費用対効果の高い開発版を無料試用版で提供しており、ライフタイムライセンスが追加費用なしでIronOCRバンドルに含まれています。IronOCRバンドルは、単一の支払いで複数のプラットフォームをカバーします。 IronOCRの価格情報については、こちらをご参照ください。 ページ.

< 以前
開発者向け日本語対応の最適なOCR (更新リスト)
次へ >
Tesseractを使用して画像からテキストを取得する方法

準備はできましたか? バージョン: 2024.9 新発売

無料のNuGetダウンロード 総ダウンロード数: 2,290,361 View Licenses >