フッターコンテンツにスキップ
OCRツール

Windows 10でのOCR(無料のオンラインツール)

光学文字認識 (OCR) は、テキストの画像を機械が読み取れる形式に変換するプロセスです。 画像や文書をコンピュータにスキャンすると、画像ファイルとして保存されます。これにより、テキストエディタが画像ファイル内の単語を編集、検索、またはカウントすることが不可能になります。OCRは、システムが画像からテキストを抽出し、その内容を編集可能なテキストデータとして保存できるようにします。

ほとんどのビジネスワークフローは印刷メディアを使用して情報を伝達することを含みます。 文書や画像をスキャンすることは課題を生む可能性があります。 OCR技術は、テキスト画像をビジネスソフトウェアで分析できるテキストデータに変換することで、この問題を解決します。 このデータは、分析を行ったり、業務を迅速化したり、プロセスを自動化したり、生産性を向上させたりするために使用できます。

この記事では、ファイルを効率的に管理するのに役立つ無料のOCRプログラムをいくつか紹介します。

Microsoft OneNote: 最良の無料OCRソフトウェア

OneNoteはデジタルノート取りアプリで、すべてのノート、リサーチ、計画、情報を一つの場所にまとめます。 OneNoteは、光学文字認識(OCR)をサポートしており、画像やファイルの印刷物(PDF文書やWordファイル)からテキストを抽出し、ノートに貼り付け、単語を変更できるツールです。 OneNoteにスキャンした名刺から情報をコピーするのに便利です。 テキストを抽出した後、それをOneNoteまたはOutlookやWordなどの他のプログラムに貼り付けることができます。 Microsoftストアから最新バージョンをダウンロードすることができ、Windowsシステムにはすでにインストールされていることも多いです。 それはテキスト認識に最高の無料OCRソフトウェアオプションの一つです。

OCR in Windows 10, Figure 1: OneNote OCR

単一の画像からテキストを抽出する

  1. 画像を右クリックし、画像からテキストをコピーをクリックします。
  2. コピーしたテキストを貼り付けたい場所をクリックし、Ctrl+Vを押します。

複数ページのファイル印刷物の画像からテキストを抽出する

  1. いずれかの画像ファイルを右クリックし、次のいずれかを行います:
    • 現在選択されている画像(ページ)からのみテキストをコピーするには、この印刷物のページからテキストをコピーをクリックします。
    • すべての画像(ページ)からテキストをコピーするには、印刷物のすべてのページからテキストをコピーをクリックします。
  2. コピーしたテキストを貼り付けたい場所をクリックし、Ctrl+Vを押します。

オンラインOCRツール

Microsoft OneNoteを使用してローカルマシンでOCR技術を使用して画像ファイルからテキストを抽出する方法を見てきました。次に、現在オンラインで利用可能なOCRソフトウェアを見てみましょう。

OnlineOCR

OnlineOCR is a professional online OCR service with a clean and simple design. このウェブサイトの外観は2009年に作成されたため少し古く見えるかもしれませんが、これによりユーザーにとってOCR操作を非常にシンプルにしています。

OnlineOCRでは、スキャンしたPDF文書、写真、デジタルカメラで撮影した画像を認識し、Word、TXT、Excelなどの編集可能なファイルに変換することができます。 英語、スペイン語、日本語、中国語、韓国語を含む46種類の言語が認識できます。

OCR in Windows 10, Figure 2: OnlineOCR

OnlineOCRでOCRの作業を行うには、簡単な3ステップで完了します。

ステップ1. "ファイルを選択" ボタンを押して、PDFファイルまたはJPG、BMP、GIF、TIFF形式のスキャンされた文書をアップロードします。 複数のファイルを一度にアップロードすることもできます。 注意: アップロード可能なファイルサイズの最大値は15MBです。

ステップ2. アップロードするファイルの言語を選択し、Word、Excel、TXTのいずれかの出力形式を選択します。

ステップ3. "変換" をクリックして、ファイルの認識と変換を開始します。

NewOCR

Another free online OCR tool is NewOCR, which can analyze the text in an image file or PDF document that you upload, and then convert it to a text document that can be edited easily on your computer. すべてのユーザーは登録要件なしで無制限のアップロードを楽しめます。 アップロードされたすべてのファイルはサーバーから削除されるため、ファイルセキュリティについて心配する必要はありません。

OCR in Windows 10, Figure 3: NewOCR

最初に、"ファイルを選択" をクリックしてデバイスから画像またはスキャンした文書を追加し、"プレビュー" をクリックします。

次に、言語ボックスで一つまたは複数の認識言語を選択し、必要に応じて画像を回転させます。 アップロードされたファイルに複数列のテキストが含まれる場合は、"ページレイアウト分析" タブをオンにしてテキストを列に分割します。 最後に、"OCR" ボタンをクリックします。

OCR in Windows 10, Figure 4: NewOCR

認識されたテキストは、下のテキストボックスに表示されます。 テキストをTXT、Word、またはPDF形式でダウンロードできます。

OCR in Windows 10, Figure 5: NewOCR

Convertio

Convertio is a free online OCR service with a modern and attractive design. 無料の未登録ユーザーは最大10ページを処理できます。 これらはPDFまたはWordファイルです。 スキャンしたPDFファイルも使用できます。さらに多くのページを認識する必要がある場合は、サインアップして改善されたサービスを受けましょう。

ConvertioでオンラインOCRを実行するには、次の3ステップに従うだけです。

ステップ1. "ファイルを選択" をクリックして、ローカルデバイス、Google Drive、Dropbox、またはウェブページからファイルを選択してアップロードします。 また、ファイルをページ上にドラッグして追加することもできます。

OCR in Windows 10, Figure 6: Convertio

Convertio

Step 2. アップロードしたファイルで使用される1つまたは2つの言語を選択します。次に、Word文書、Excelワークブック、PDF文書、テキストファイル、または必要に応じて出力形式を設定します。"ページ番号" ボックスにページ範囲を入力して、すべてのページまたは特定のページのみを認識することを選択できます。

OCR in Windows 10, Figure 7: Convertio OCR設定

Convertio OCR設定

ステップ3. 変換と認識が完了すると、変換された文書内の抽出されたテキストのダウンロードリンクが上部に表示されます。それを任意の場所に保存するだけです。

OCR in Windows 10, Figure 8: Convertio Downloading Files

Convertioからのファイルのダウンロード

Convertioは最も多くのオプションを提供するOCRオンラインサービスであり、したがって最高の無料オンラインOCRソフトウェアです。

IronOCR

IronOCRは、.NET開発者がスキャン文書やPDFファイルからテキストを抽出する必要がある際の人気のあるOCR技術ライブラリです。 それは、画像、デジタル化、および認識のリアルタイムで高い精度、迅速な処理、そして堅実なパフォーマンスを提供します。 このライブラリは、文書スキャンを自動化することで文書のデジタル化を簡素化するソフトウェアコンポーネントです。 また、文書インデックス作成や画像処理などのプロセスもサポートしています。

IronOCRは、不完全にスキャンされた画像やドキュメントからデータを自動的に検出して抽出する能力がユニークです。 IronTesseract クラスは、あらゆるプラットフォームで最も高度なTesseractビルドを提供し、スピードと精度を向上させています。

スキャンした画像ファイルからテキストを抽出するコードサンプルを見てみましょう。

// Import the necessary IronOCR namespace
using IronOcr;

// Create an instance of the IronTesseract class
var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Load the image file to perform OCR
    Input.AddImage("test-files/redacted-employmentapp.png");

    // Perform OCR to extract text from the image(s)
    var Result = Ocr.Read(Input);

    // Output the extracted text to the console
    Console.WriteLine(Result.Text);
}
// Import the necessary IronOCR namespace
using IronOcr;

// Create an instance of the IronTesseract class
var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Load the image file to perform OCR
    Input.AddImage("test-files/redacted-employmentapp.png");

    // Perform OCR to extract text from the image(s)
    var Result = Ocr.Read(Input);

    // Output the extracted text to the console
    Console.WriteLine(Result.Text);
}
' Import the necessary IronOCR namespace
Imports IronOcr

' Create an instance of the IronTesseract class
Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' Load the image file to perform OCR
	Input.AddImage("test-files/redacted-employmentapp.png")

	' Perform OCR to extract text from the image(s)
	Dim Result = Ocr.Read(Input)

	' Output the extracted text to the console
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

テキストを抽出するための入力画像

OCR in Windows 10, Figure 9: IronOCR, 出力はクリーンで、オリジナル画像に合致し、少しのコードで技術的な点を含めず完璧な出力です。

出力はクリーンで、オリジナル画像に合致し、少しのコードで技術的な点を含めず完璧な出力です。

抽出されたテキストの出力

出力はクリーンで、元の画像にぴったりと一致し、僅か数行のコードで、完璧な出力と技術的な問題なしの結果となります。

" class="img-responsive add-shadow" />

5.2. AWS Textractを使用する

ライセンス

IronOCRは開発目的で完全に無料です。 また、商用ライセンス用に独自の価格構造を持っています。 LiteバンドルはliteLicenseから始まり、隠れた費用はありません。 ユーザーは、無料トライアルで購入前にIronOCRを実際に試すことができます。 事業規模に応じて、1人の開発者、10人の開発者、または無制限の開発者のライセンスを選択して、パッケージを選択します。

Iron Softwareは、大幅な割引で製品群全体を提供しています。 このページでさらに詳細を学びましょう

Kannaopat Udonpant
ソフトウェアエンジニア
ソフトウェアエンジニアになる前に、Kannapatは北海道大学で環境資源の博士号を修了しました。博士号を追求する間に、彼はバイオプロダクションエンジニアリング学科の一部である車両ロボティクスラボラトリーのメンバーになりました。2022年には、C#のスキルを活用してIron Softwareのエンジニアリングチームに参加し、IronPDFに注力しています。Kannapatは、IronPDFの多くのコードを執筆している開発者から直接学んでいるため、この仕事を大切にしています。同僚から学びながら、Iron Softwareでの働く社会的側面も楽しんでいます。コードやドキュメントを書いていない時は、KannapatはPS5でゲームをしたり、『The Last of Us』を再視聴したりしていることが多いです。