Windows OCR Engine 與 Tesseract:詳細比較

發佈 2024年4月3日


在眾多可用的OCR軟件中,如Google Cloud Vision(云端视觉 API),Adobe Acrobat Pro DC、ABBYY Finereader 和許多其他,Windows OCR 引擎 vs Tesseract,和IronOCR脫穎而出,作為顯著的競爭者,各自提供獨特的功能和能力以協助文件分析。


1. OCR引擎簡介

OCR 引擎是設計用來從圖像、PDF 和其他掃描文件中識別並提取純文字的軟體工具。 他們運用先進的算法和機器學習技術準確識別字符,將其轉換為機器可讀的文本文件。Windows OCR Engine、Tesseract 和 IronOCR 是三種被廣泛使用的 OCR 解決方案,每種都有其優勢和應用。

2. Windows OCR 引擎

Windows OCR 引擎集成到 Windows 操作系統中,提供了一個方便且使用者友好的解決方案,用於從輸入圖像和掃描文件中提取文本。 利用先進的影像處理技術,它可以準確識別多種語言和字體樣式的文字。 Windows OCR 引擎可透過 Windows Runtime API 存取,能夠將其功能無縫整合到具有命令行工具功能的 Windows 應用程式中。

2.1 Windows OCR 引擎的主要功能

  • 語言支持:Windows OCR 引擎支持多種語言,非常適合處理多語言文件。
  • 影像處理:它使用先進的影像處理演算法來提高印刷文本識別的準確性,即使在低品質的影像中也能做到。
  • 與 Windows 應用程式的整合:Windows OCR 引擎可無縫整合到 Windows 應用程式中,允許開發人員將完整的 OCR 功能納入他們的軟體。

2.2 代碼範例

using System;
using System.IO;
using System.Text;
using System.Threading.Tasks;
class Program
    static async Task Main(string [] args)
        // Provide the path to the image file
        string imagePath = "sample.png";
            // Instantiate the program class
            Program program = new Program();
            // Call the ExtractText method to extract text from the image
            string extractedText = await program.ExtractText(imagePath);
            // Display the extracted text
            Console.WriteLine("Extracted Text:");
        catch (Exception ex)
            Console.WriteLine("An error occurred: " + ex.Message);
    public async Task<string> ExtractText(string image)
        // Initialize StringBuilder to store extracted text
        StringBuilder text = new StringBuilder();
            // Open the image file stream
            using (var fileStream = System.IO.File.OpenRead(image))
                Console.WriteLine("Extracted Text:");
                // Create a BitmapDecoder from the image file stream
                var bmpDecoder = await Windows.Graphics.Imaging.BitmapDecoder.CreateAsync(fileStream.AsRandomAccessStream());
                // Get the software bitmap from the decoder
                var softwareBmp = await bmpDecoder.GetSoftwareBitmapAsync();
                // Create an OCR engine from user profile languages
                var ocrEngine = Windows.Media.Ocr.OcrEngine.TryCreateFromUserProfileLanguages();
                // Recognize text from the software bitmap
                var ocrResult = await ocrEngine.RecognizeAsync(softwareBmp);
                // Append each line of recognized text to the StringBuilder
                foreach (var line in ocrResult.Lines)
        catch (Exception ex)
            throw ex; // Propagate the exception
        // Return the extracted text
        return text.ToString();
Imports System
Imports System.IO
Imports System.Text
Imports System.Threading.Tasks
Friend Class Program
	Shared Async Function Main(ByVal args() As String) As Task
		' Provide the path to the image file
		Dim imagePath As String = "sample.png"
			' Instantiate the program class
			Dim program As New Program()
			' Call the ExtractText method to extract text from the image
			Dim extractedText As String = Await program.ExtractText(imagePath)
			' Display the extracted text
			Console.WriteLine("Extracted Text:")
		Catch ex As Exception
			Console.WriteLine("An error occurred: " & ex.Message)
		End Try
	End Function
	Public Async Function ExtractText(ByVal image As String) As Task(Of String)
		' Initialize StringBuilder to store extracted text
		Dim text As New StringBuilder()
			' Open the image file stream
			Using fileStream = System.IO.File.OpenRead(image)
				Console.WriteLine("Extracted Text:")
				' Create a BitmapDecoder from the image file stream
				Dim bmpDecoder = Await Windows.Graphics.Imaging.BitmapDecoder.CreateAsync(fileStream.AsRandomAccessStream())
				' Get the software bitmap from the decoder
				Dim softwareBmp = Await bmpDecoder.GetSoftwareBitmapAsync()
				' Create an OCR engine from user profile languages
				Dim ocrEngine = Windows.Media.Ocr.OcrEngine.TryCreateFromUserProfileLanguages()
				' Recognize text from the software bitmap
				Dim ocrResult = Await ocrEngine.RecognizeAsync(softwareBmp)
				' Append each line of recognized text to the StringBuilder
				For Each line In ocrResult.Lines
				Next line
			End Using
		Catch ex As Exception
			Throw ex ' Propagate the exception
		End Try
		' Return the extracted text
		Return text.ToString()
	End Function
End Class
2.2.1 輸出

Windows OCR 引擎與 Tesseract 的比較(OCR 功能比較):圖1 - Windows OCR 引擎代碼的控制台輸出

3. Tesseract

Tesseract由 Google 開發的開源 OCR 引擎,因其準確性和多功能性而廣受歡迎。 它支持超過100種語言,並且可以處理各種影像格式,包括TIFF、JPEG和PNG。 Tesseract OCR 引擎採用深度學習算法和神經網絡,實現高水平的文本識別準確性,這使得它適合於廣泛的應用。

3.1 Tesseract 的主要功能

  • 語言支持:Tesseract 引擎支持超過 100 種語言,包括阿拉伯語和中文等複雜的文字。
  • 圖像預處理:它提供廣泛的圖像預處理能力,包括去斜、二值化和降噪,以提高文字識別的準確性。
  • 自訂選項:Tesseract 允許用戶微調 OCR 參數並為特定用例訓練自訂模型,以提高準確性和性能。

3.2 代碼範例

using Patagames.Ocr;
using (var api = OcrApi.Create())
    string plainText = api.GetTextFromImage(@"C:\Users\buttw\source\repos\ironqr\ironqr\bin\Debug\net5.0\Iron.png");
3.2.1 輸出

Windows OCR 引擎與 Tesseract 比較(OCR 功能比較):圖 2 - Tesseract 代碼的控制臺輸出

4. IronOCR

IronOCR由 Iron Software 開發的強大 OCR 引擎以其卓越的準確性、易用性和多樣的語言支援而著稱。 它提供本地的OCR功能,並支持超過127種語言,使其適用於全球應用程序。 IronOCR 利用先進的機器學習算法和雲端視覺技術,即使在具有挑戰性的情境中也能提供精確的文字識別結果。

4.1 IronOCR 的主要功能

  • 高準確性:IronOCR 提供行業領先的文字識別準確性,確保在各種文檔類型和語言中獲得可靠的結果。
  • 多語言支援:支援超過127種語言,並提供完整的語言包,以實現無縫的多語文字識別。
  • 簡單整合:IronOCR 提供與 .NET 應用程式的簡單整合,具有直觀的 API 和詳細的文件,藉由預處理和後處理原始圖像來提取文字,以簡化開發過程。

4.2 安裝 IronOCR


  1. 在 Visual Studio 中,轉到工具選單,然後選擇 NuGet 套件管理器。

    1. 將會出現一個新的列表,在這裡選擇解決方案的 NuGet 套件管理器。

    Windows OCR 引擎與 Tesseract的比較(OCR功能比較):圖3 - 如何找到 Visual Studio 的 NuGet 程式包管理器

  2. 將會出現一個新視窗,前往「瀏覽」標籤,在搜尋欄中輸入「IronOCR」。

    1. 將出現一個包列表,選擇最新的IronOCR包並點擊安裝。

    Windows OCR 引擎與 Tesseract(OCR 功能對比):圖 4 - 安裝 IronOCR 套件

4.3 代碼範例 (C#)

using IronOcr;
var ocr = new IronTesseract();
ocr.Language = OcrLanguage.English;
var result = ocr.Read("C:\\Users\\buttw\\source\\repos\\ironqr\\ironqr\\bin\\Debug\\net5.0\\Iron.png");
4.3.1 輸出

Windows OCR 引擎 vs Tesseract (OCR 特性比較): 圖5 - IronOCR 代碼的控制台輸出

5. 比較評估

5.1 準確性與性能

  • Windows OCR 引擎和 Tesseract 提供不錯的準確性,但可能在處理複雜佈局時遇到困難。
  • IronOCR:在準確性方面表現優異,能在各種文件類型和語言中提供可靠的結果,包括噪聲圖片。

5.2 易於整合

  • Windows OCR 引擎:可無縫整合至 Windows 應用程式中,但缺乏自訂選項。
  • Tesseract:需要額外的配置和依賴項來進行整合,但提供廣泛的自定義選項。
  • IronOCR:提供與 .NET 應用程式的簡單整合,具備直觀的 API 和全面的文件。

5.3 語言支持

  • Windows OCR 引擎和 Tesseract 相比,支援的語言數量有限,不如 Tesseract 和 IronOCR。
  • IronOCR:支持超過127種語言,使其適合全球應用。

    6. 結論

    總之,雖然 Windows OCR 引擎和 Tesseract 是受歡迎的文字識別選擇,IronOCR成為最準確且多功能的OCR引擎。其業界領先的準確性、廣泛的語言支持以及簡單的整合,為尋求可靠OCR功能的企業和開發者提供了突出的解決方案。 通過利用IronOCR,組織可以精簡文件處理工作流程,提高數據提取準確性,並從掃描的文件和圖像中獲得有價值的洞察。

    IronOCR 提供一個免費試用. 要了解有關 IronOCR 及其功能的更多資訊,請訪問這裡.

Kannaopat Udonpant




在成為軟體工程師之前,Kannapat 在日本北海道大學完成了環境資源博士學位。在攻讀學位期間,Kannapat 也成為了車輛機器人實驗室的成員,該實驗室隸屬於生物生產工程學系。2022 年,他利用自己的 C# 技能,加入了 Iron Software 的工程團隊,專注於 IronPDF 的開發。Kannapat 珍視這份工作,因為他可以直接向負責撰寫大部分 IronPDF 程式碼的開發人員學習。除了同儕學習外,Kannapat 還享受在 Iron Software 工作的社交方面。當他不在撰寫程式碼或文件時,Kannapat 通常會在 PS5 上玩遊戲或重看《最後生還者》。
