ライブ環境でテストする
ウォーターマークなしで本番環境でテストしてください。
必要な場所でいつでも動作します。
現在のデジタル時代では、画像ベースのコンテンツを読みやすい編集可能な検索可能なテキストに変換します。 これは、紙ベースの文書のアーカイブ、画像からの重要情報の抽出、手書きや印刷物のデジタル化などのシナリオで特に重要です。 光学文字認識 (OCR)(OCR (光学式文字認識))テクノロジは、この変換プロセスを自動化するソリューションを提供します。 これを実現するための信頼性が高く効率的なツールの1つが、.NET用の堅牢なOCRライブラリであるIronOCRです。
この記事では、以下のツールを使って画像をテキストに変換する方法を説明します。IronOCRまた、この変換によってどのように時間を節約し、エラーを減らし、データ抽出、アーカイブ、文書処理などのプロセスを合理化できるかを探求してください。
新規作成IronTesseract\インスタンス
を使用して画像を読み込んでください。*OcrImageInput***`
を使って画像の内容を読むOcrRead`
画像をテキストに変換したい理由はたくさんあります:
IronOCRの強力な画像からテキストへの変換機能を活用して画像からテキストを抽出する方法を探る前に、まずオンラインツールを使った一般的なステップ・バイ・ステップのプロセスを見てみましょう、docsumo. オンラインOCRツールは、手動でセットアップする必要がないため、気軽なOCR作業、あるいは単発のOCR作業を行う場合に便利なオプションです。もちろん、定期的にOCR作業を行う必要がある場合は、IronOCRのような強力なOCRツールを使用した方が良いでしょう。
オンラインOCRツールに移動する
画像をアップロードして、抽出プロセスを開始します。
画像ファイルからテキストを抽出するためにOCR技術を利用し始めるには、まず、使用したいオンライン画像OCRツールに移動します。
さて、「ファイルをアップロード」ボタンをクリックして、テキストを抽出したい画像ファイルをアップロードします。 ツールは直ちに画像の処理を開始します。
画像の処理が終わったので、抽出したテキストを新しいテキスト文書としてダウンロードし、さらに使用したり操作したりすることができます。
また、ファイルを表示し、さまざまなセクションをハイライトして、その中に含まれるテキストを表示することもできます。 これは、特定のセクション内のテキストを表示したい場合に特に役立つ可能性があります。 その後、テキスト文書、XLS、またはJSONとしてテキストをダウンロードすることができます。
IronOCRは、画像に対してOCR処理を実行できる汎用的な.NETライブラリです。 幅広い機能を提供し、さまざまなファイル形式を処理できます。(PNG、JPEG、TIFF、PDFなど。)画像補正、専門文書のスキャン(パスポート、ナンバープレートなど)また、スキャンしたファイルに関する高度な情報を提供し、スキャンした文書を変換し、テキストをハイライトします。
IronOCRを使って画像を読み始める前に、プロジェクトにまだインストールされていない場合はインストールする必要があります。 IronOCRはVisual StudioのNuGetを使って簡単にインストールできます。 NuGetパッケージマネージャーコンソールを開き、以下のコマンドを実行してください:
Install-Package IronOcr
Install-Package IronOcr
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'Install-Package IronOcr
あるいは、NuGet Package Manager for SolutionページからIronOCRを検索してインストールすることもできます。
あなたのコードでIronOcrを使用するには、コードの先頭に適切なimport文を記述してください:
using IronOcr;
using IronOcr;
Imports IronOcr
まず始めに、IronOCRを使った基本的な画像からテキストへの例を見てみましょう。 これは、どのOCRツールでも中核となる機能であり、この例では、オンラインツールで使用したPNGファイルを使用します。 この例では、最初にIronTesseractクラスを作成し、変数'ocr'に代入しました。 次に*OcrImageInput***クラスを使用して、提供された画像ファイルから新しいOcrImageInputオブジェクトを作成します。 このたび、**読む** メソッドは、画像からテキストを読み取るために使用されます。[OcrResult](/csharp/ocr/object-reference/api/IronOcr.OcrResult.html)オブジェクト 次に、抽出されたテキストにアクセスし、コンソールに表示するには[ocrResult.Text**](/csharp/ocr/object-reference/api/IronOcr.OcrResult.html#IronOcr_OcrResult_Text).
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
Imports IronOcr
Private ocr As New IronTesseract()
Private OcrImageInput As using
Private ocrResult As OcrResult = ocr.Read(image)
Console.WriteLine(ocrResult.Text)
IronOCRはPNG、JPEG、BMP、GIF、TIFFのような複数の画像フォーマットをサポートしています。 異なる画像フォーマットからテキストを読み取るプロセスは同じで、正しい拡張子のファイルを読み込むだけです。
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.bmp");
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.bmp");
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
Imports IronOcr
Private ocr As New IronTesseract()
Private OcrImageInput As using
Private ocrResult As OcrResult = ocr.Read(image)
Console.WriteLine(ocrResult.Text)
OCRの性能は、画像を最適化し、言語、画像解像度、画像のノイズレベルなどのオプションを設定することで向上させることができます。 ここでは、OCRを微調整して、品質向上が必要な画像上のテキスト抽出の精度を高める方法について説明します。デノイズ()以下のコンテンツを日本語に翻訳してください:シャープ()メソッドを使用します:
using IronOcr
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
image.DeNoise();
image.Sharpen();
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
using IronOcr
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
image.DeNoise();
image.Sharpen();
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
Using IronOcr IronTesseract ocr = New IronTesseract()
Using image As New OcrImageInput("example.png")
image.DeNoise()
image.Sharpen()
Dim ocrResult As OcrResult = ocr.Read(image)
Console.WriteLine(ocrResult.Text)
End Using
End Using
画像からテキストに変換するプロセスの基本がわかったところで、次に、できあがったテキストを後で使えるようにエクスポートする方法を見てみましょう。 この例では、先ほどと同じプロセスで画像を読み込み、スキャンします。 次に、File.WriteAllTextを使用します。("output.txt", ocrResult.Text)、'output.txt'という新しいテキストファイルを作成し、抽出したテキストをそのファイルに保存します。
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
OcrResult ocrResult = ocr.Read(image);
File.WriteAllText("output.txt", ocrResult.Text);
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
OcrResult ocrResult = ocr.Read(image);
File.WriteAllText("output.txt", ocrResult.Text);
Imports IronOcr
Private ocr As New IronTesseract()
Private OcrImageInput As using
Private ocrResult As OcrResult = ocr.Read(image)
File.WriteAllText("output.txt", ocrResult.Text)
高精度:IronOCRは高度な翻訳技術を使用しています。テッセラクトOCRアルゴリズムと、複雑な画像を処理するための内蔵ツールが含まれており、高い精度を保証します。
多言語サポート:125以上の言語に対応ラテン文字、キリル文字、アラビア文字、アジア文字など、複数の文字を含む。 ただし、IronOCRと一緒にインストールされるのは英語だけであり、他の言語を使用するには、その言語の追加言語パックをインストールする必要があります。
PDF OCR:IronOCRはPDFからテキストを抽出することができます。スキャンされたPDFそのため、文書のデジタル化のための貴重なツールとなっています。
画像クリーンアップ:これは、次のような前処理ツールを提供します。デスキュービング, ノイズ除去、および反転OCRの精度を高めるために、画質を向上させること。
IronOCRを使用して画像からテキストを変換することは、文書処理タスクを処理するための高速で正確かつ効率的な方法です。 スキャン文書、デジタル画像、PDF文書のいずれを扱う場合でも、IronOCRは高精度、多言語サポート、強力な画像処理ツールを提供し、プロセスを簡素化します。 このツールは、文書管理ワークフローの合理化、データ抽出の自動化、アクセシビリティの向上を目指す企業に最適です。
次のものを使用無料試用IronOCRの強力な機能を今すぐお試しください。ワークスペース内で完全に動作させるのに数分しかかかりませんので、すぐにOCRタスクの処理を開始することができます。!
9つの .NET API製品 オフィス文書用