Microsoft OCRツール(C#での代替案)
OCR(光学式文字認識)は、すべての規模の企業にとって重要な技術です。 これにより、効率的なスキャン、データの保存、分析が可能になり、時間と手間のかかる複雑な処理を避けることができます。
Microsoft OCRツールは、デジタルトランスフォーメーションプロセスを簡略化するための強力なオプションを提供します。 これらのツールは、より迅速かつ効率的な文書処理を可能にし、ビジネスの成長という重要なタスクに集中するための時間を確保します。 この記事では、強力なMicrosoft OCRツールを活用して業務を効率化する方法を探ります。
OneNote: マイクロソフトツール
画像からテキストを抽出する必要がある場合、Microsoft OneNoteは便利なツールです。 OneNoteは多用途のノート作成アプリケーションであり、テキストや画像、音声、ビデオなどのさまざまな形式で情報をキャプチャ、保存、整理するためのプラットフォームを提供します。 また、画像やファイルプリントアウトからテキストをコピーするための貴重なツールであり、手作業でのテキスト入力の手間を省くことができます。
OneNoteを使用してテキストを抽出する
OneNoteを使用して画像からテキストを抽出するには、次の手順を実行します。
- OneNoteアプリケーションを起動します。
"挿入"オプションを使用して画像ファイルを挿入するか、画像ファイルをOneNoteウィンドウにドラッグ&ドロップします。

OneNote挿入リボン
画像を右クリックし、メニューから"画像からテキストをコピー"を選択します。

コンテキストメニューで画像からテキストをコピー
最後に、コピーされたテキストを任意の場所に貼り付けて、スキャンされた画像からの抽出テキストにアクセスします。

画像からコピーされたテキストからのテキストソース
これがOneNoteを使って画像をスキャンする方法です。
Microsoftビジョンスタジオ
マイクロソフト認知サービスは、AIを利用して画像をスキャンし、正確にテキストを検出する"画像からテキストを抽出"機能を提供しています。 このサービスはユーザーフレンドリーで、画像またはPDFファイルをアップロードするだけで済みます。情報は高精度で文字起こしされ、抽出されたテキストが画像またはPDFファイルの内容を正確に表します。
さらに、抽出されたテキストはさまざまな言語で提供されるため、世界中のユーザーが利用できます。 Microsoft認知サービスの"画像からテキストを抽出"で、画像からの貴重なデータ抽出が簡単になり、効率的な分析とタスクの効果的な完了を可能にします。
Microsoftビジョンスタジオを使用してテキストを抽出する
"画像からテキストを抽出"機能を使用するには、Microsoft AzureのVision Studioウェブサイトを訪れることができます。 ただし、このサービスにはAzureのサブスクリプションが必要です。 サブスクリプションを購入すると、スキャンされたドキュメントからの抽出テキストにアクセスできます。 以下は参考のためのサンプル出力画像です。

テキストのためにスキャンされた画像
A9T9マイクロソフト無料OCRソフトウェア
A9T9 Free OCR Softwareは、多用途なツールで、Windowsユーザーが紙のドキュメントを簡単にデジタルテキストに変換できます。 シンプルなドラッグ&ドロップ機能により、英語、ドイツ語、中国語、韓国語、インド語を含む複数の言語でのテキスト認識が即座に行えます。 このソフトウェアは、スキャンされた画像やPDFドキュメントからデータを抽出し、編集可能で検索可能な形式に変換できます。
このソフトウェアはRich Text、TXT、CSVなどのさまざまな出力形式と、BMP、TIF、PDFのような画像形式をサポートしています。 また、自動文書の傾き修正機能もあります。 このソフトウェアは、透明な背景を持つ画像でも、さまざまな言語の画像のテキストを迅速かつ正確に認識します。 A9T9の高い精度、手頃な価格、および簡単なインストールは、無料のOCRソフトウェアソリューションを探しているWindowsユーザーにとって最適な選択肢です。
A9T9を使用してテキストをコピーする
Microsoft StoreからA9T9ソフトウェアをダウンロードできます。 インストール後、A9T9ソフトウェアを開き、画像またはPDFファイルをアップロードします。

A9T9を使用してテキストをコピーする
画像またはドキュメントが読み込まれたら、"OCR開始"ボタンをクリックします。 これにより、スキャンされたドキュメントまたは画像からテキストが抽出され、右側のテキストエリアに表示されます。

テキストは右側に表示されます
OCR言語を選択して、テキストをコピーするか、Wordドキュメントとして保存できます。
Office Lens
Office Lensは、メモ、ホワイトボード、メニュー、サイン、その他の種類の書かれたまたは視覚的な情報をキャプチャし、整理するために作成された高度なツールです。 このアプリは、手書きメモの必要性を排除し、重要な情報を失う可能性を防ぐことにより、従来のメモ作成に代わる優れた代替手段を提供します。
Office Lensは、スケッチ、手書きメモ、図や方程式を簡単にキャプチャし、影や傾斜を補正して読みやすさを向上させる機能も備えています。 また、OCR(光学式文字認識)を備えており、ユーザーが画像内のテキストをデジタル化して編集できるようにします。
残念ながら、MicrosoftはOffice LensのWindowsバージョンを終了しました。 現在はモバイルデバイスでのみ利用可能です。 さらに、Microsoft Office Document ImagingはMicrosoft Word 2010から削除されました。
IronOCR: C# OCR ライブラリ
IronOCRは、.NET開発者向けの強力なC#のOCRライブラリです。 これにより、スキャンされたドキュメントや画像で完全なOCR機能が可能になり、開発者がドキュメントベースのワークフローを自動化しやすくなります。 シンプルなAPIと最小限の設定で、IronOCRは既存のシステムに統合するのが簡単です。
ライブラリはシンプルなAPIを提供し、最小限の設定で既存のシステムに統合するのが容易です。 JPEG、TIFF、GIF、BMP、PDF、多ページTIFF、および複数のドキュメントスキャンなど、幅広い入力ファイル形式をサポートし、さまざまな向きの画像からテキストを読み取ることができます。
IronOCRの高度な機能には、ノイズリダクションが含まれており、画像の歪みを軽減し、テキスト抽出結果の精度を向上させます。 英語、フランス語、ドイツ語、スペイン語、日本語など、125以上の言語をサポートしており、人的介入なしで高品質のOCR結果を必要とするほぼすべてのアプリケーションに適しています。
IronOCRを使用してテキストを抽出する
PDFファイルからのテキスト抽出が簡単で、特定のページ番号を指定したり、ドキュメントのすべてのページからテキストを抽出することが可能です。 適切なツールを用いることで、プロセスを効率化し、より効率的にすることができます。
using IronOcr;
using System;
var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput())
{
// Add the entire PDF for OCR processing
ocrInput.AddPdf("example.pdf");
// Alternatively, OCR selected page numbers from a password-protected PDF
ocrInput.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
// Perform OCR and get the result
var ocrResult = ocrTesseract.Read(ocrInput);
// Output the extracted text
Console.WriteLine(ocrResult.Text);
}using IronOcr;
using System;
var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput())
{
// Add the entire PDF for OCR processing
ocrInput.AddPdf("example.pdf");
// Alternatively, OCR selected page numbers from a password-protected PDF
ocrInput.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
// Perform OCR and get the result
var ocrResult = ocrTesseract.Read(ocrInput);
// Output the extracted text
Console.WriteLine(ocrResult.Text);
}こちらが出力結果です。

Visual Studioデバッグコンソール内部の出力
PDFファイルからのテキスト抽出に加えて、バーコードも簡単に読み取ることができます。 ライブラリは、バーコードを読み取るためのシンプルなコード実装を提供し、さまざまなドキュメントベースのワークフローにおいて多用途なツールとなります。 以下のコードを参照してください。
using IronOcr;
using System;
var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
// Read barcodes from an image file
using (var ocrInput = new OcrInput(@"images\imageWithBarcode.png"))
{
var ocrResult = ocrTesseract.Read(ocrInput);
// Iterate through the detected barcodes and print their values
foreach (var barcode in ocrResult.Barcodes)
{
Console.WriteLine(barcode.Value);
}
}using IronOcr;
using System;
var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
// Read barcodes from an image file
using (var ocrInput = new OcrInput(@"images\imageWithBarcode.png"))
{
var ocrResult = ocrTesseract.Read(ocrInput);
// Iterate through the detected barcodes and print their values
foreach (var barcode in ocrResult.Barcodes)
{
Console.WriteLine(barcode.Value);
}
}
コードの入力/出力
IronOCRは、処理前に低解像度やノイズのある画像を強化することをサポートしています。
using IronOcr;
using System;
var ocrTesseract = new IronTesseract();
// Process a noisy image by deskewing and denoising it
using (var ocrInput = new OcrInput(@"images\image.png"))
{
ocrInput.Deskew(); // Corrects for skewness in the image
ocrInput.DeNoise(); // Reduces visual noise for better recognition
// Perform OCR and print the text
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);
}using IronOcr;
using System;
var ocrTesseract = new IronTesseract();
// Process a noisy image by deskewing and denoising it
using (var ocrInput = new OcrInput(@"images\image.png"))
{
ocrInput.Deskew(); // Corrects for skewness in the image
ocrInput.DeNoise(); // Reduces visual noise for better recognition
// Perform OCR and print the text
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);
}結論
結論として、光学式文字認識(OCR)は、あらゆる規模の企業に大きな利益をもたらす重要なツールであり、効率的な情報のスキャン、保存、および処理を可能にし、手動での管理が複雑で時間のかかるものを簡素化します。 Microsoftは、OneNote、Microsoft Vision Studio、A9T9 Free OCRソフトウェアを含むさまざまなOCRツールを提供しており、プロセスを合理化し、時間を節約できます。
IronOCRは、十分な機能を備えたOCRライブラリで、利用可能なOCRツールの中でも際立ったオプションです。 C#およびVB.NETアプリケーションと簡単に統合でき、複数言語と画像形式の優れた精度と認識を提供し、無料試用期間があり、ライセンス費用は$799から始まります。 IronOCRは、デジタルトランスフォーメーションの改善を目指す企業にとって価値ある投資です。 これらのOCRツールはそれぞれユニークな機能を提供し、異なるニーズに応えることができるため、デジタルトランスフォーメーションを目指す企業にとって貴重な資産となります。







