OCR 工具

Microsoft OCR 工具(C# 替代方案)

發佈 2023年3月30日
分享:

光學字符識別 (OCR) (光學字符識別) 對各種類型的企業來說,是一項至關重要的技術。它能有效地掃描、儲存和分析資料,否則這些資料將耗時且複雜而難以處理。

Microsoft OCR 工具提供了強大的選項,以簡化您的數位轉型過程。這些工具能更快速且更高效地處理文件,讓您有更多時間專注於發展業務的重要任務。在本文中,我們將探討如何利用強大的 Microsoft OCR 工具來精簡您的操作。

OneNote: 微軟工具

如果您需要從圖像中提取文本,微軟的 OneNote 是一個有用的工具。OneNote 是一個多功能的筆記應用程式,提供一個平台來捕捉、存儲和組織各種形式的資訊,如文本、圖像、音訊和視頻。它也是從圖像或文件打印件中複製文本的寶貴工具,幫助您節省手動輸入文本的時間和精力。

使用 OneNote 提取文字

要使用 OneNote 從圖片中提取文字,請按照以下步驟操作:

  1. 啟動 OneNote 應用程式。
  2. 使用「插入」選項插入圖片檔案,或只需將圖片檔案拖放到 OneNote 視窗中。
OneNote 插入功能區

OneNote 插入選項卡

  1. 右鍵點擊圖像,從選單中選擇「從圖片中複製文字」。
在上下文選單中從圖片複製文字

在上下文選單中從圖片複製文字

  1. 最後,將複製的文本粘貼到任何所需位置,即可訪問從掃描圖像中提取的文本。
從圖片複製的文字

從圖片複製的文字

這就是你可以使用 OneNote 來掃描任何圖像的方法。

Microsoft Vision Studio

Microsoft Cognitive Services 提供了一個“從圖片中提取文字”的功能,利用人工智慧掃描圖片並準確檢測文字。這個服務使用起來非常方便,只需要上傳圖片或 PDF 文件即可。然後,信息會被高度精確地轉錄,確保提取的文字能準確代表圖片或 PDF 文件的內容。

此外,提取的文字可以是多種語言,使這項服務能為來自世界各地的用戶提供便利。通過 Microsoft Cognitive Services 的“從圖片中提取文字”,從圖片中提取有價值的數據變得簡單,從而實現高效分析和有效任務完成。

使用 Microsoft Vision Studio 提取文字

要使用「從圖片中提取文字」功能,您可以訪問 Microsoft Azure 的 視覺工作室網站然而,此服務需要訂閱 Azure。 一旦您購買了訂閱,您將可以訪問從掃描文件中提取的文字。 以下是參考的範例輸出圖像。

圖像掃描其文本

圖像掃描其文本

A9T9 微软免费 OCR 软件

A9T9 免费 OCR 软件是一款功能多样的工具,能够让 Windows 用户轻松地将纸质文档转换为数字文本。其简便的拖放功能可以即时识别多种语言的文字,包括英语、德语、中文、韩语和印度语言。这款软件可以从扫描图像或 PDF 文档中提取数据,并将其转换为可编辑、可搜索的格式。

此软件支持多种输出格式,例如 Rich Text、TXT 或 CSV,以及像 BMP、TIF 或 PDF 这样的图像格式。它还具有自动文件倾斜校正功能。该软件能快速准确地识别各种语言图像中的文字,即使是具有透明背景的图像。A9T9 的高准确率、实惠性和易安装性使其成为 Windows 用户寻找免费 OCR 软件解决方案的首选。

使用A9T9複製文本

您可以從以下網址下載A9T9軟體 微軟商店安裝完成後,打開A9T9軟體並上傳圖像或PDF文件。

圖像掃描其文本

使用 A9T9 複製文字

一旦圖像或文件載入,點擊「開始 OCR」按鈕。這將從掃描的文件或圖像中提取文本,並將其顯示在右側的文本區域。

文字顯示在右手邊

文字顯示在右手邊

您可以選擇OCR語言,並可以複製文字或將其儲存為Word文件。

Office Lens

Office Lens 是一款專門用來捕捉和組織筆記、白板、菜單、標誌及其他類型書寫或視覺資料的高級工具。這個應用程序提供了一個優於傳統筆記的方法,消除了手寫筆記的需求以及丟失重要信息的可能性。

Office Lens 允許用戶輕鬆捕捉草圖、手寫筆記、繪圖和方程式,並矯正陰影和角度歪斜的圖像以提高可讀性。它還具有 OCR 功能。 (光學字元識別), 使用戶能夠數位化和編輯圖像中的文本。

不幸的是,微軟已經停止了 Windows 版本的 Office Lens。它現在僅在移動設備上可用。此外,Microsoft Office Document Imaging 已從 Microsoft Word 2010 中移除。

IronOCR: C# OCR 庫

IronOCR 是專為 .NET 開發者設計的強大 C# OCR 庫。它賦予掃描文件和圖像完整的 OCR 功能,使開發者能輕易自動化基於文件的工作流程。憑藉其簡單的 API 和最小配置,IronOCR 易於整合到現有系統中。

該庫提供簡單的 API,使其易於與最少配置集成到現有系統中。它支持廣泛的輸入文件格式,包括 JPEG、TIFF、GIF、BMP、PDF、多頁 TIFF 以及多個文檔掃描,並能從不同方向的圖像中讀取文本。

IronOCR 的高階功能包括噪音消除,這有助於減少圖像失真並提高文本提取結果的準確性。該庫支持超過 125 種語言,包括英語、法語、德語、西班牙語和日語,適用於幾乎任何需要高質量 OCR 結果且不需要手動介入的應用程式。

使用 IronOCR 提取文字

透過輕鬆從 PDF 文件中提取文字的功能,可以指定特定頁碼或從文件的所有頁面中提取文字。使用合適的工具可以簡化和提高文字提取的效率。

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

using (var ocrInput = new OcrInput())
{
    // OCR entire document
    ocrInput.AddPdf("example.pdf");

    // Alternatively OCR selected page numbers
    ocrInput.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

using (var ocrInput = new OcrInput())
{
    // OCR entire document
    ocrInput.AddPdf("example.pdf");

    // Alternatively OCR selected page numbers
    ocrInput.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()

Using ocrInput As New OcrInput()
	' OCR entire document
	ocrInput.AddPdf("example.pdf")

	' Alternatively OCR selected page numbers
	ocrInput.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	Dim ocrResult = ocrTesseract.Read(ocrInput)
	Console.WriteLine(ocrResult.Text)
End Using
VB   C#

這是輸出:

Visual Studio Debug Console內的輸出

Visual Studio Debug Console內的輸出

您還可以輕鬆地讀取條碼,除了從 PDF 文件中提取文本之外。該庫提供了簡單的程式碼實現來讀取條碼,使其成為各種基於文件的工作流程的多功能工具。請參閱以下程式碼:

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
using (var ocrInput = new OcrInput(@"images\imageWithBarcode.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);
    foreach (var barcode in ocrResult.Barcodes)
    {
        Console.WriteLine(barcode.Value);
    }
}
using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
using (var ocrInput = new OcrInput(@"images\imageWithBarcode.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);
    foreach (var barcode in ocrResult.Barcodes)
    {
        Console.WriteLine(barcode.Value);
    }
}
Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()
ocrTesseract.Configuration.ReadBarCodes = True
Using ocrInput As New OcrInput("images\imageWithBarcode.png")
	Dim ocrResult = ocrTesseract.Read(ocrInput)
	For Each barcode In ocrResult.Barcodes
		Console.WriteLine(barcode.Value)
	Next barcode
End Using
VB   C#
代碼的輸入/輸出

代碼的輸入/輸出

IronOCR 能夠支援低 DPI 和有噪點的圖像。

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    ocrInput.Deskew();
    ocrInput.DeNoise();
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    ocrInput.Deskew();
    ocrInput.DeNoise();
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()
Using ocrInput As New OcrInput("images\image.png")
	ocrInput.Deskew()
	ocrInput.DeNoise()
	Dim ocrResult = ocrTesseract.Read(ocrInput)
	Console.WriteLine(ocrResult.Text)
End Using
VB   C#

結論

總而言之,光學字符識別 (光學字符識別) 是一個重要的工具,可以大大有利於各種規模的企業,使他們能夠有效地掃描、存儲和處理那些手工管理起來既複雜又耗時的信息。微軟提供了各種OCR工具,包括OneNote、Microsoft Vision Studio和A9T9 Free OCR Software,這些工具可以簡化流程並節省時間。

IronOCR是一個功能齊全的OCR庫,在可用的OCR工具中是一個突出選擇。它可以輕鬆集成到C#和VB.NET應用程序中,提供卓越的準確性和對多種語言和圖像格式的識別能力,並且具有 免費試用 期間,授權費用從 $749 開始。IronOCR 是希望改善數位轉型的企業的寶貴投資。這些 OCR 工具中的每一個都提供獨特的功能,可以滿足不同的需求,使它們成為希望改善數位轉型的企業的寶貴資產。

< 上一頁
最佳 Windows 10 OCR 軟體(比較列表)
下一個 >
安裝 Tesseract(帶圖片的逐步教學)

準備開始了嗎? 版本: 2024.10 剛剛發布

免費 NuGet 下載 總下載次數: 2,433,305 查看許可證 >