OCRツール

Microsoft OCRツール(C#の代替ツール)

公開済み 2023年3月30日
共有:

OCR(光学文字認識) (光学文字認識) は、あらゆる規模の企業にとって重要な技術です。 それは、効率的なデータのスキャン、保存、分析を可能にし、通常であれば時間がかかり複雑な処理を簡素化します。

Microsoft OCRツールは、デジタルトランスフォーメーションのプロセスを簡素化する強力なオプションを提供します。 これらのツールは、より迅速で効率的なドキュメント処理を可能にし、あなたがビジネスを成長させるための重要な作業に集中できるように時間を確保します。 この記事では、強力なMicrosoft OCRツールを利用して、業務を効率化する方法を探ります。

OneNote: マイクロソフトツール

画像からテキストを抽出する必要がある場合、Microsoft OneNoteは便利なツールです。 OneNoteは、多様な形式の情報をテキスト、画像、音声、ビデオで記録、保存、整理するためのプラットフォームを提供する多用途のノート取りアプリケーションです。 また、画像やファイルの印刷物からテキストをコピーするための貴重なツールであり、テキストを手動で入力する必要がなくなり、時間と労力を節約できます。

OneNoteを使用してテキストを抽出

画像からテキストを抽出するために、次の手順に従ってください:

  1. OneNoteアプリケーションを起動します。

  2. 「挿入」オプションを使用して画像ファイルを挿入するか、画像ファイルをOneNoteウィンドウにドラッグ&ドロップしてください。

    OneNote 挿入タブ

    OneNote 挿入リボン

  3. 画像を右クリックして、メニューから「画像からテキストをコピー」を選択します。

    コンテキストメニューの「画像からテキストをコピー」

    コンテキストメニューの「画像からテキストをコピー」

  4. 最後に、スキャン画像から抽出したテキストをアクセスしたい任意の場所にコピーしたテキストを貼り付けます。
    画像からコピーしたテキスト

    画像からコピーしたテキスト

    以下のようにして、OneNoteを使用して画像をスキャンすることができます。

マイクロソフト ビジョン スタジオ

Microsoft Cognitive Servicesは、「画像からテキストを抽出」機能を提供しており、AIを利用して画像をスキャンし、正確にテキストを検出します。 このサービスはユーザーフレンドリーで、画像またはPDFファイルのアップロードのみで利用できます。その後、情報は高精度で転写され、抽出されたテキストが画像またはPDFファイルの内容を正確に表すことが保証されます。

さらに、抽出されたテキストはさまざまな言語で対応可能であり、世界中のユーザーがこのサービスを利用できます。 Microsoft Cognitive Servicesの「Extract Text from Images」を使用すると、画像から貴重なデータを簡単に抽出でき、効率的な分析と効果的なタスクの完遂が可能になります。

Microsoft Vision Studioを使用してテキストを抽出

「画像からテキストを抽出する」機能を使用するには、Microsoft Azureの ビジョンスタジオのウェブサイト. しかし、このサービスにはAzureのサブスクリプションが必要です。 サブスクリプションを購入すると、スキャンされたドキュメントから抽出されたテキストにアクセスできるようになります。 以下は参考用のサンプル出力画像です。

画像はそのテキストのためにスキャンされました

画像はそのテキストのためにスキャンされました

A9T9 Microsoft Free OCRソフトウェア

A9T9 Free OCR Softwareは、多用途なツールであり、Windowsユーザーが紙の書類を簡単にデジタルテキストに変換することができます。 そのシンプルなドラッグ&ドロップ機能により、英語、ドイツ語、中国語、韓国語、インド語など複数の言語でテキストを即座に認識することができます。 このソフトウェアはスキャンされた画像やPDFドキュメントからデータを抽出し、編集可能で検索可能な形式に変換することができます。

このソフトウェアは、リッチテキスト、TXT、またはCSVなどの様々な出力フォーマットや、BMP、TIF、またはPDFなどの画像フォーマットをサポートしています。 また、自動ドキュメントデスキュー機能も備えています。 このソフトウェアは、さまざまな言語の画像内のテキストを、透過背景があっても迅速かつ正確に認識します。 A9T9の高い精度、手頃な価格、そして簡単なインストールは、無料のOCRソフトウェアソリューションを探しているWindowsユーザーにとって最適な選択肢となっています。

A9T9を使用してテキストをコピー

「A9T9ソフトウェアは以下のリンクからダウンロードできます」 Microsoftストア. インストール後、A9T9ソフトウェアを開き、画像またはPDFファイルをアップロードします。

画像はそのテキストのためにスキャンされました

A9T9を使用してテキストをコピー

画像やドキュメントが読み込まれたら、「Start OCR」ボタンをクリックしてください。 これは、スキャンしたドキュメントや画像からテキストを抽出し、右側のテキストエリアに表示します。

右側に表示されるテキスト

右側に表示されるテキスト

OCR言語を選択し、テキストをコピーするか、Wordドキュメントとして保存することができます。

オフィスレンズ

Office Lensは、ノート、ホワイトボード、メニュー、看板、その他の種類の書かれた情報やビジュアル情報をキャプチャおよび整理するために作成された高度なツールです。 このアプリは、手書きのメモを必要とせず、重要な情報を失う可能性を排除することで、従来のメモ取りに対して優れた代替手段を提供します。

Office Lensは、ユーザーがスケッチ、手書きのメモ、図面、方程式を簡単にキャプチャし、シャドウや歪んだ角度を補正して読みやすさを向上させることができます。 それにはOCRも搭載されています (光学文字認識)、ユーザーが画像内のテキストをデジタル化して編集することを可能にします。

残念ながら、マイクロソフトはOffice LensのWindows版を廃止しました。 それは現在、モバイルデバイスのみで利用可能です。 さらに、Microsoft Office Document Imagingは、Microsoft Word 2010から削除されました。

IronOCR: C# OCRライブラリ

IronOCRは、.NET開発者のためのC#で作られた強力なOCRライブラリです。 スキャンされたドキュメントや画像に完全なOCR機能を提供し、開発者がドキュメントベースのワークフローを自動化することを容易にします。 シンプルなAPIと最小限の設定であるため、IronOCRは既存のシステムに簡単に統合することができます。

このライブラリはシンプルなAPIを提供しており、最小限の設定で既存のシステムに簡単に統合できます。 広範囲の入力ファイル形式をサポートしており、JPEG、TIFF、GIF、BMP、PDF、複数ページのTIFF、および複数のドキュメントスキャンが含まれます。さまざまな方向の画像からテキストを読み取ることができます。

IronOCR の高度な機能にはノイズ除去が含まれています。これにより、画像の歪みが軽減され、テキスト抽出結果の精度が向上します。 125以上の言語、例えば英語、フランス語、ドイツ語、スペイン語、日本語などに対応しており、高品質のOCR結果を手動介入なしで必要とするほぼ全てのアプリケーションに適しています。

IronOCRを使用してテキストを抽出する

PDFファイルからテキストを簡単に抽出する機能により、特定のページ番号を指定したり、ドキュメントのすべてのページからテキストを抽出したりすることが可能です。 テキスト抽出のプロセスは、適切なツールを使用することで効率化され、よりスムーズに行うことができます。

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

using (var ocrInput = new OcrInput())
{
    // OCR entire document
    ocrInput.AddPdf("example.pdf");

    // Alternatively OCR selected page numbers
    ocrInput.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

using (var ocrInput = new OcrInput())
{
    // OCR entire document
    ocrInput.AddPdf("example.pdf");

    // Alternatively OCR selected page numbers
    ocrInput.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()

Using ocrInput As New OcrInput()
	' OCR entire document
	ocrInput.AddPdf("example.pdf")

	' Alternatively OCR selected page numbers
	ocrInput.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	Dim ocrResult = ocrTesseract.Read(ocrInput)
	Console.WriteLine(ocrResult.Text)
End Using
VB   C#

こちらが出力です:

Visual Studio Debug Consoleの出力

Visual Studio Debug Consoleの出力

PDFファイルからのテキスト抽出に加え、バーコードも簡単に読み取ることができます。 ライブラリはバーコードを読み取るためのシンプルなコード実装を提供し、さまざまなドキュメントベースのワークフローに対応できる多目的ツールです。 次のコードをご覧ください:

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
using (var ocrInput = new OcrInput(@"images\imageWithBarcode.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);
    foreach (var barcode in ocrResult.Barcodes)
    {
        Console.WriteLine(barcode.Value);
    }
}
using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
using (var ocrInput = new OcrInput(@"images\imageWithBarcode.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);
    foreach (var barcode in ocrResult.Barcodes)
    {
        Console.WriteLine(barcode.Value);
    }
}
Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()
ocrTesseract.Configuration.ReadBarCodes = True
Using ocrInput As New OcrInput("images\imageWithBarcode.png")
	Dim ocrResult = ocrTesseract.Read(ocrInput)
	For Each barcode In ocrResult.Barcodes
		Console.WriteLine(barcode.Value)
	Next barcode
End Using
VB   C#
コードの入出力

コードの入出力

IronOCRは低DPIおよびノイズの多い画像をサポートすることができます。

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    ocrInput.Deskew();
    ocrInput.DeNoise();
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    ocrInput.Deskew();
    ocrInput.DeNoise();
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()
Using ocrInput As New OcrInput("images\image.png")
	ocrInput.Deskew()
	ocrInput.DeNoise()
	Dim ocrResult = ocrTesseract.Read(ocrInput)
	Console.WriteLine(ocrResult.Text)
End Using
VB   C#

結論

結論として、光学文字認識 (OCR (光学式文字認識)) は、企業にとって重要なツールであり、手作業では複雑で時間がかかる情報のスキャン、保存、および処理を効率的に行うことができ、あらゆる規模のビジネスに大きな利便性をもたらします。 マイクロソフトは、プロセスを効率化し、時間を節約できるさまざまなOCRツールを提供しています。これには、OneNote、Microsoft Vision Studio、およびA9T9 Free OCR Software が含まれます。

IronOCRは、機能が充実したOCRライブラリとして、利用可能なOCRツールの中で際立った選択肢です。 C#やVB.NETアプリケーションに簡単に統合でき、複数の言語や画像形式の認識精度が非常に高いです。 無料試用 期間、$749 からライセンス費用が始まります。 IronOCRは、デジタルトランスフォーメーションを向上させたい企業にとって価値のある投資です。 これらのOCRツールはそれぞれ独自の機能を提供し、異なるニーズに対応できます。デジタル変革を向上させたい企業にとって貴重な資産となります。

< 以前
Windows 10に最適なOCRソフトウェア(比較リスト)
次へ >
Tesseractのインストール(画像付きステップバイステップチュートリアル)