ライブ環境でテストする
ウォーターマークなしで本番環境でテストしてください。
必要な場所でいつでも動作します。
光学文字認識の分野では(OCR (光学式文字認識))ソフトウェア、ABBYY FineReader、IronOCR、そしてTesseractは、先進的なテキスト認識機能を提供する際立ったソリューションとして際立っています。 彼らがスキャン文書やスキャン画像をPDF文書のような編集可能で検索可能な形式に変換することを目指している一方で、機能、精度、使いやすさ、価格の面で異なります。 この記事は詳細に掘り下げますOCRツールの比較他のOCRエンジン、ABBYY FineReader、Tesseractなどを含むIronOCR.
光学文字認識 (OCR)(OCR (光学式文字認識))ソフトウェアは、テキストが多いドキュメントとのインタラクションの方法を変革します。 高度なアルゴリズムと機械学習技術を活用することで、OCRソフトウェアはスキャンされた文書、画像、PDFファイルなどのさまざまなソースからテキストを認識して抽出できます。 この技術はデジタル化を促進するだけでなく、文書管理、データ認識のテキスト抽出、視覚障害者のアクセシビリティも向上させます。
ABBYY FineReader(アビー ファインリーダー)市場をリードするOCRソリューションであり、その優れた精度と包括的な機能セットで知られています。 ABBYYによって開発されたFineReaderは、ドキュメント処理技術の世界的リーダーであり、個人ユーザーおよびエンタープライズレベルのアプリケーションに対応した使いやすいインターフェースと強力なOCR機能を提供します。
ABBYY FineReaderはウェブサイトから簡単にダウンロードしてインストールできます。ダウンロードするには、クリックしてください。これ.
無料トライアルダウンロードボタンをクリックすると、新しいページにリダイレクトされ、フォームに記入して7日間の無料トライアルを取得する必要があります。
ダウンロード後、ABBYY FineReader を開き、OCR 編集ツールをクリックして画像ファイルの OCR 修正を行います。
OCRエディタタブをクリックすると、ウィンドウがポップアップします。このウィンドウで開きたい画像ファイルを選択し、OCRプロセスを実行します。
オープンボタンをクリックすると、画像が読み込まれ、OCR操作が実行され、右側のOCRエディタに編集可能な抽出テキストが表示され、左側に画像が表示されます。
テッセラクトGoogleが開発したオープンソースのOCRエンジンは、機械学習アルゴリズムに裏付けられた強力なテキスト認識機能を提供します。 1980年代にヒューレット・パッカードによって初めて開発されたTesseractは、多くの言語やプラットフォームに対応した多才なOCRソリューションに進化しました。 Tesseractは、FineReaderのような商業用OCRツールやソフトウェアの洗練されたインターフェースや豊富な機能セットには欠けるかもしれませんが、無料でカスタマイズ可能なOCRソリューションを求めている開発者や愛好者にとっては依然として人気の選択肢です。
NuGetパッケージマネージャーを使用して、簡単にTesseract .NET SDKをインストールできます。 以下の手順に従ってください:
Visual Studioを開き、「ツール」 > 「NuGetパッケージマネージャー」 > 「ソリューションのNuGetパッケージの管理」に移動します。
「Browse」タブで「Tesseract.NET SDK」を検索してください。
検索結果から「Tesseract.NET SDK」を選択し、インストールを進めてください。
インストールが完了したら、Program.csファイルに以下のコードを書き込んでください。
using Patagames.Ocr;
using System;
using (var api = OcrApi.Create())
{
api.Init(Patagames.Ocr.Enums.Languages.English);
string plainText = api.GetTextFromImage(@"C:\Users\buttw\OneDrive\Desktop\Examples-of-images-in-robust-OCR-Sample-dataset-classified-into-seven-groups-a-Clear.png");
Console.WriteLine(plainText);
}
using Patagames.Ocr;
using System;
using (var api = OcrApi.Create())
{
api.Init(Patagames.Ocr.Enums.Languages.English);
string plainText = api.GetTextFromImage(@"C:\Users\buttw\OneDrive\Desktop\Examples-of-images-in-robust-OCR-Sample-dataset-classified-into-seven-groups-a-Clear.png");
Console.WriteLine(plainText);
}
Imports Patagames.Ocr
Imports System
Using api = OcrApi.Create()
api.Init(Patagames.Ocr.Enums.Languages.English)
Dim plainText As String = api.GetTextFromImage("C:\Users\buttw\OneDrive\Desktop\Examples-of-images-in-robust-OCR-Sample-dataset-classified-into-seven-groups-a-Clear.png")
Console.WriteLine(plainText)
End Using
このコードスニペットは、Tesseract.NET SDKを使用して光学文字認識(OCR)を実行します。(OCR (光学式文字認識))画像ファイルからテキストを抽出する 以下の内容を日本語に翻訳してください:
英語の言語処理用にOCRエンジンを初期化し、指定された画像ファイルからテキストを抽出します。GetTextFromImage() メソッドを使用して、結果を plainText** 変数に格納します。 最後に、抽出されたテキストをコンソールに出力します。 この簡潔な実装例では、Tesseract OCRをC#アプリケーションにシームレスに統合し、画像から容易にテキストを抽出する方法を紹介しています。
IronOCR光学文字認識(Optical Character Recognition)の最前線に立っています(OCR (光学式文字認識))技術は、スキャンしたドキュメント、PDFファイル、および画像を機械読取可能で検索可能なテキストに変換するための堅牢で多用途のソリューションを提供します。 Iron Softwareによって開発されたIronOCRは、先進的なアルゴリズム、クラウドビジョン、および人工知能を活用して、印字されたテキスト、スキャンされたファイル、および手書き文字を含むテキストを正確に抽出します。 直感的なインターフェースと強力な機能を備えたIronOCRは、効率的な文書管理およびデータ抽出ソリューションを求める開発者や企業にとって好まれる選択肢となっています。
オンプレミスOCR: IronOCRはオンプレミスのテキスト抽出を可能にし、開発者が外部サービスに依存することなく、OCR機能を直接自分たちのアプリケーションに統合できるようにします。
多用途の言語サポート: IronOCRは、127以上の国際言語をサポートしており、さまざまな言語やスクリプトのテキストを正確に認識することで、グローバルなユーザーに対応します。
高度なテキスト認識: IronOCRはフォントやスタイルの検出を含む高度なテキスト認識機能を提供しており、さまざまなレイアウトや書式のドキュメントからテキストを正確に抽出することを保証します。
柔軟なライセンスオプション: IronOCRは、コスト効率とスケーラビリティを確保するために、無料試用版および個々のアプリケーションサーバーの使用状況と展開のニーズに合わせた有料ライセンスを含む、さまざまなライセンスオプションを提供しています。
インストールIronOCRVisual StudioとNuGetパッケージマネージャーを使用するのは非常に簡単です。 Visual Studio を開き、「ツール」に移動し、「NuGet パッケージ マネージャー」をクリックします。新しいウィンドウが表示されます。 新しいウィンドウで、ブラウズタブに移動し、「IronOCR」を検索してください。パッケージのリストが表示されます。 最新バージョンのIronOCRを選択し、インストールをクリックしてください。
以下のソースコードは、画像ファイルに対してOCRを実行し、IronOCRを使用してテキストを抽出します。
using Google.Protobuf.WellKnownTypes;
using IronOcr;
using System;
var Ocr = new IronTesseract(); // nothing to configure
Ocr.Language = OcrLanguage.EnglishBest;
using (var Input = new OcrInput())
{
Input.LoadImage(@"C:\Users\buttw\OneDrive\Desktop\Examples-of-images-in-robust-OCR-Sample-dataset-classified-into-seven-groups-a-Clear.png");
Input.Deskew();
Input.DeNoise();
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using Google.Protobuf.WellKnownTypes;
using IronOcr;
using System;
var Ocr = new IronTesseract(); // nothing to configure
Ocr.Language = OcrLanguage.EnglishBest;
using (var Input = new OcrInput())
{
Input.LoadImage(@"C:\Users\buttw\OneDrive\Desktop\Examples-of-images-in-robust-OCR-Sample-dataset-classified-into-seven-groups-a-Clear.png");
Input.Deskew();
Input.DeNoise();
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports Google.Protobuf.WellKnownTypes
Imports IronOcr
Imports System
Private Ocr = New IronTesseract() ' nothing to configure
Ocr.Language = OcrLanguage.EnglishBest
Using Input = New OcrInput()
Input.LoadImage("C:\Users\buttw\OneDrive\Desktop\Examples-of-images-in-robust-OCR-Sample-dataset-classified-into-seven-groups-a-Clear.png")
Input.Deskew()
Input.DeNoise()
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
以下のコードスニペットは、強力な光学式文字認識 (OCR) ツールであるIronOCRの使用例を示しています。(OCR (光学式文字認識))ライブラリを使用して画像ファイルからテキストを抽出するために、まずIronTesseractクラスのインスタンスを作成してIronOCRを初期化します。
OCR処理の言語は、Ocr.Language = OcrLanguage.EnglishBest を使用して英語に設定されています。 他の言語を選択することもできます。 次に、OCR 処理のために画像ファイルを読み込むための OcrInput オブジェクトを作成し、画像品質を向上させるためにデスクューおよびノイズ除去操作を適用します。 最後に、処理された画像に対してOCR(光学文字認識)をReadコマンドで実行します。()IronOCR の メソッドを使用して結果を Result** 変数に保存し、抽出されたテキストファイルをコンソールに出力します。 この簡潔な実装は、IronOCRをC#アプリケーションにシームレスに統合して、画像から正確なテキストを抽出する方法を示しています。
評価しましょうABBYY ファインリーダー, テッセラクト以下のコンテンツを日本語に翻訳してください:IronOCR以下のいくつかの重要な側面に基づいて:
精度と効率
精度と効率性の観点から言えば、ABBYY FineReaderとTesseractの両方はテキストを正確に認識する点では優れていますが、手書きのテキストを明確に認識するための画像処理技術が欠けています。
IronOCRはAIと高度なアルゴリズムを使用して、手書きを簡単に認識できる高度なテキスト認識機能を提供します。
ユーザーフレンドリーとシームレス統合
ABBYY FineReaderは、ユーザーフレンドリーなインターフェースと、人気のドキュメント管理システム、クラウドストレージプラットフォーム、生産性向上ソフトウェアとのシームレスな統合を提供します。 Tesseractはオープンソースであるため、コマンドラインインターフェースの使用によりプロジェクトへの統合にはより多くの労力が必要となる場合があります。
IronOCRはシームレスな統合を提供しており、あらゆる.NETプロジェクトに簡単に統合でき、カスタムコードを簡単に使用することができます。
スケーラビリティ
ABBYY FineReaderとTesseractの拡張性は、アプリケーションのインフラストラクチャとOCR処理を扱う能力に依存します。
IronOCRは、内部のOCR処理と豊富なドキュメントにより、高いスケーラビリティを持っています。
財務上の考慮事項
ABBYY FineReaderは通常、一回限りの購入またはサブスクリプションベースのモデルを採用しており、長期的なコスト効率の利点を提供します。 Tesseractはオープンソースであり、無料で使用できるため、開発者にとってコスト効率の良いオプションです。
IronOCRは、一度限りの購入またはサブスクリプションベースのモデルが必要になる場合がありますが、その高度な機能は多くのアプリケーションにとってコストを正当化するかもしれません。
結論として、このABBYY FineReader、Tesseract、およびIronOCRの比較において、私たちはそれぞれの紹介、機能、コード例について説明しました。 ABBYY FineReaderはユーザーインターフェースに利点がありますが、Tesseractはコマンドラインインターフェースを持ち、プロジェクトに統合することができます。 IronOCRは、OCR機能を実行するために最新バージョンのTesseractを使用します。
についてIronOCR最も高度なテキスト認識機能を備えており、上記の例で示されているように、IronOCRだけがテストをミスなく成功裏に抽出することができました。一方、ABBYY FineReaderとTesseract OCRエンジンは手書きのテキストを正確に認識することができませんでした。 OCRの精度を優先することに加えて、IronOCRは125以上の国際的な言語をサポートしています。 それは提供します追加OCR言語パック、同時に複数の言語を追加することを可能にします。
IronOCRおよびIronOCRの使い方について詳しく知りたい場合は、以下のリンクをご覧ください: ドキュメントページ コードの例については、こちらをご覧くださいコード例ページ ABBYY FineReaderとIronOCRの比較は以下でご覧いただけますリンクIronOCRとTesseractの比較については、を訪問してください。これ.
IronOCRは無料試用ライセンスこれは、IronOCRおよびその機能を知るための絶好の機会です。 IronOCRのLiteパッケージは$liteLicenseから開始します。 詳細なライセンス情報については、以下のリンクをご覧ください:ライセンスページ.
9つの .NET API製品 オフィス文書用