OCR 工具

Microsoft OCR 工具(C# 替代方案)

發佈 2023年3月30日
分享:

光學字符識別 (OCR)(光學字符識別)對各種規模的企業來說, 是一項關鍵技術。 它能有效掃描、儲存和分析資料,否則這些資料將耗時且處理複雜。

Microsoft OCR 工具提供強大的選項,以簡化您的數位轉型過程。 這些工具可讓文件處理速度更快、更高效,從而騰出時間讓您專注於發展業務的重要任務。 在本文中,我們將探討如何利用功能強大的 Microsoft OCR 工具來簡化您的操作。

OneNote:Microsoft 工具

如果您需要從圖像中提取文字,Microsoft OneNote 是一個有用的工具。 OneNote 是一款多功能的筆記應用程式,提供了一個平台來捕捉、存儲和組織各種形式的資訊,如文字、圖像、音頻和視頻。 這是一個寶貴的工具,可以從圖像或文件打印件中複製文本,免除手動輸入文本的需要,節省時間和精力。

使用 OneNote 提取文本

若要使用 OneNote 從圖像中提取文本,請按照以下步驟操作:

  1. 啟動 OneNote 應用程式。

  2. 使用「插入」選項插入圖像檔案,或直接將圖像檔案拖放到 OneNote 視窗中。

    OneNote 插入功能區

    OneNote 插入選項卡

  3. 右鍵點擊圖像,從選單中選擇「從圖片中複製文字」。

    在上下文選單中從圖片複製文字

    在上下文選單中從圖片複製文字

  4. 最後,將複製的文本粘貼到任何所需位置,即可訪問從掃描圖像中提取的文本。
    從圖片複製的文字

    從圖片複製的文字

    這就是你可以使用 OneNote 來掃描任何圖像的方法。

Microsoft Vision Studio

Microsoft Cognitive Services 提供「從圖像中提取文字」功能,利用人工智慧掃描圖像並精準偵測文字。 此服務使用簡單友好,只需上傳圖片或 PDF 檔案即可。然後將資訊進行高精度轉錄,確保提取的文字準確反映圖片或 PDF 檔案的內容。

此外,提取的文本可以是多種語言,使服務對全球各地的使用者都能夠存取。 使用 Microsoft 認知服務的「從圖像中提取文字」,從圖像中提取有價值的數據變得簡單,並能夠進行高效分析和有效完成任務。

使用 Microsoft Vision Studio 提取文本

若要使用「從影像提取文本」功能,您可以造訪 Microsoft Azure 的視覺工作室網站. 然而,此服務需要訂閱 Azure。 一旦您購買了訂閱,您將可以訪問從掃描文件中提取的文本。 以下是供參考的樣本輸出圖像。

圖像掃描其文本

圖像掃描其文本

A9T9 微軟免費 OCR 軟體

A9T9 Free OCR Software 是一款多功能工具,讓 Windows 用戶能夠輕鬆地將紙張文件轉換為數位文本。 其簡單的拖放功能允許即時識別多種語言的文本,包括英語、德語、中文、韓語和印度語。 此軟體可以從掃描圖像或 PDF 文件中提取數據並將其轉換為可編輯、可搜索的格式。

此軟體支援多種輸出格式,例如富文本(Rich Text)、TXT 或 CSV,以及影像格式如 BMP、TIF 或 PDF。 它還具有自動文件校正的功能。 該軟體能快速且準確地識別多種語言圖像中的文字,即使是具有透明背景的圖像。 A9T9的高準確率、價格實惠和易於安裝,使其成為尋找免費OCR軟件解決方案的Windows用戶的首選。

使用 A9T9 複製文字

您可以從 A9T9 軟體下載微軟商店. 安裝後,開啟A9T9軟體並上傳影像或PDF文件。

圖像掃描其文本

使用 A9T9 複製文字

一旦載入圖片或文件,點擊「開始 OCR」按鈕。 這將從掃描文件或圖像中提取文本,並在右側的文本區域中顯示。

文字顯示在右手邊

文字顯示在右手邊

您可以選擇OCR語言,並可以複製文字或將其儲存為Word文件。

Office Lens

Office Lens 是一款專為捕捉和整理筆記、白板、菜單、標誌及其他書寫或視覺資訊而設計的高級工具。 此應用程式提供了一種優於傳統筆記的替代方案,消除了手寫筆記的需要以及丟失重要信息的可能性。

Office Lens 讓用戶輕鬆捕捉素描、手寫筆記、繪圖和方程式,並校正陰影和傾斜角度的圖像,以提升可讀性。 還具備光學字符識別 (OCR) 功能(光學字元識別),使用戶能夠在圖像中數位化和編輯文本。

不幸的是,微軟已經停止提供 Windows 版本的 Office Lens。 現在僅在行動裝置上提供。 此外,Microsoft Office Document Imaging 已從 Microsoft Word 2010 中移除。

IronOCR:C# OCR 函式庫

IronOCR 是一個強大的 C# OCR 程式庫,適用於 .NET 開發人員。 它為掃描文件和圖像提供完整的OCR功能,使開發人員能夠輕鬆自動化基於文件的工作流程。 IronOCR 擁有簡單的 API 和最少的配置,使其易於整合到現有系統中。

該函式庫提供簡單的 API,可輕鬆整合到現有系統中,且需要的配置最小化。 它支援包含 JPEG、TIFF、GIF、BMP、PDF、多頁 TIFF 和多文件掃描在內的多種輸入檔案格式,並能從具有不同方向的圖像中讀取文字。

IronOCR 的高級功能包括噪點移除,有助於減少影像失真並提高文字擷取結果的準確性。 該庫支持超過125種語言,包括英語、法語、德語、西班牙語和日語,適用於幾乎任何需要高品質OCR結果且無需人工干預的應用程序。

使用 IronOCR 提取文字

藉由輕鬆提取 PDF 文件中的文本,您可以指定特定頁碼或從文件的所有頁面提取文本。 透過適當的工具,文字擷取的過程可以更精簡、更高效。

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

using (var ocrInput = new OcrInput())
{
    // OCR entire document
    ocrInput.AddPdf("example.pdf");

    // Alternatively OCR selected page numbers
    ocrInput.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

using (var ocrInput = new OcrInput())
{
    // OCR entire document
    ocrInput.AddPdf("example.pdf");

    // Alternatively OCR selected page numbers
    ocrInput.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()

Using ocrInput As New OcrInput()
	' OCR entire document
	ocrInput.AddPdf("example.pdf")

	' Alternatively OCR selected page numbers
	ocrInput.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	Dim ocrResult = ocrTesseract.Read(ocrInput)
	Console.WriteLine(ocrResult.Text)
End Using
VB   C#

這是輸出:

Visual Studio Debug Console內的輸出

Visual Studio Debug Console內的輸出

除了從 PDF 文件中提取文本外,您還可以輕鬆讀取條形碼。 該函式庫提供簡單的代碼實現以讀取條碼,使其成為各種文件工作流程的多功能工具。 請參閱以下程式碼:

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
using (var ocrInput = new OcrInput(@"images\imageWithBarcode.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);
    foreach (var barcode in ocrResult.Barcodes)
    {
        Console.WriteLine(barcode.Value);
    }
}
using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
using (var ocrInput = new OcrInput(@"images\imageWithBarcode.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);
    foreach (var barcode in ocrResult.Barcodes)
    {
        Console.WriteLine(barcode.Value);
    }
}
Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()
ocrTesseract.Configuration.ReadBarCodes = True
Using ocrInput As New OcrInput("images\imageWithBarcode.png")
	Dim ocrResult = ocrTesseract.Read(ocrInput)
	For Each barcode In ocrResult.Barcodes
		Console.WriteLine(barcode.Value)
	Next barcode
End Using
VB   C#
代碼的輸入/輸出

代碼的輸入/輸出

IronOCR 能夠支援低 DPI 和有噪點的圖像。

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    ocrInput.Deskew();
    ocrInput.DeNoise();
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    ocrInput.Deskew();
    ocrInput.DeNoise();
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()
Using ocrInput As New OcrInput("images\image.png")
	ocrInput.Deskew()
	ocrInput.DeNoise()
	Dim ocrResult = ocrTesseract.Read(ocrInput)
	Console.WriteLine(ocrResult.Text)
End Using
VB   C#

結論

結論,光學字符識別(光學字符識別)是一個重要的工具,可以大大有利於各種規模的企業,使它們能夠高效掃描、存儲和處理資訊,否則這些資訊手動管理起來將會複雜且耗時。 Microsoft 提供各種 OCR 工具,包括 OneNote、Microsoft Vision Studio 和 A9T9 Free OCR Software,這些工具可以精簡流程並節省時間。

IronOCR,作為功能齊全的 OCR 庫,是眾多可用 OCR 工具中的突出選擇。 它易於與 C# 和 VB.NET 應用程式整合,提供卓越的準確性和多語言及圖像格式的識別能力,並且具有免費試用期間,許可證費用從 $749 開始。 IronOCR 是希望提升數位轉型的企業的一項寶貴投資。 這些 OCR 工具各具特色,能夠滿足不同需求,使其成為企業在尋求數位轉型時的寶貴資產。

< 上一頁
最佳 Windows 10 OCR 軟體(比較列表)
下一個 >
安裝 Tesseract(帶圖片的逐步教學)

準備開始了嗎? 版本: 2024.11 剛剛發布

免費 NuGet 下載 總下載次數: 2,698,613 查看許可證 >