使用 IRONOCR

如何在C#中從截圖中獲取文字OCR

已更新 2023年12月18日
分享:

許多人可能會想知道「什麼是 OCR 截圖?」其他人可能會想知道如何將任何文字的截圖轉換為可編輯的數字文本格式或 .txt,或 .doc 格式。 如果您是其中一員,那麼不用再擔心,我們為您提供完美的解決方案。

在本文中,我們將討論一些可以讓您在螢幕截圖上執行 OCR(光學字符識別)的不同工具。

市面上有許多OCR工具,但今天我們將使用IronOCR從截圖中提取文本。

1. IronOCR

IronOCR 是一個用於 C# 和 VB.NET 程式語言的軟體庫,旨在讓開發人員能夠添加 OCR 功能。(光學字符識別)將功能整合到他們的應用程式中。 該程式庫可用於識別圖像中的文本並將其轉換為機器可讀文本。 該庫是基於 Tesseract OCR 引擎構建的,該引擎被認為是最準確的 OCR 引擎之一。

IronOCR 可以用來從多種不同檔案格式的影像中讀取文字,包括 PNG、JPG、TIFF 和 PDF。 它還提供了一系列的高級功能來處理文字識別,例如能夠識別多種語言,以及能夠從旋轉或扭曲的圖像中識別文字的能力。 此外,開發人員可以使用 IronOCR 快速將 OCR 功能整合到他們的應用程式中,因為它提供了一個簡單易用的 API,可以從 C# 或 VB.NET 代碼中調用。 使用 IronOCR,您可以選擇您的 OCR 語言,並對圖像、數位 PDF 文件和掃描 PDF 文件執行 OCR。

IronOCR 被認為是想在應用程式中新增 OCR 功能的開發人員的一個好選擇。 它是開源的,易於使用和整合,速度快,準確,並且與最新的OCR技術保持同步。

2. IronOCR 功能

IronOCR 提供各種功能,幫助開發人員將OCR功能整合到他們的應用程式中。 IronOCR 的一些主要功能包括:

  1. 多語言支持IronOCR 可以識別超過 60 種語言的文本,包括英語、西班牙語、德語、法語、意大利語和中文。

    2.自动检测文字方向IronOCR 能夠自動檢測圖片中文字的方向,即使圖片已經旋轉或扭曲。

  2. 支持廣泛的圖像格式:IronOCR 可以從多種不同的文件格式的圖像中讀取文本,包括 PNG、JPG,TIFF,和PDF.

  3. 可自訂的識別設置:開發人員可以自訂識別設置,以提高特定圖像或使用案例的識別準確性。

  4. 能夠識別來自多頁掃描文件和 PDF 的文字。

  5. 快速識別和高精準度:IronOCR 使用的 Tesseract OCR 引擎是目前最準確且廣泛使用的 OCR 引擎之一。

  6. 易於使用的API:IronOCR 提供一個簡單、易於使用的 API,可以從 C# 或 VB.NET 代碼調用,使得將 OCR 功能集成到任何應用程式中變得簡單。

    總體而言,IronOCR 是一款強大的工具,提供多種功能來幫助開發人員將 OCR 功能添加到他們的應用程式中。

3. 在 Visual Studio 中創建新項目

打開 Visual Studio,然後轉到「文件」選單。 選擇「新專案」,然後選擇「主控台應用程式」。

輸入專案名稱並在相應的文本框中選擇路徑。 然後,點擊建立按鈕。 選擇所需的 .NET Framework,如下圖所示:

如何在C#中從截圖獲取文字的OCR,圖1:在Visual Studio中創建一個新項目

在 Visual Studio 中建立新專案

Visual Studio 專案現在將為主控台應用程式生成結構。 完成後,將打開 program.cs 文件,您可以在其中編寫和執行源代碼。

如何在C#中從螢幕截圖中取得OCR文字,圖2:由Visual Studio的新專案精靈生成的program.cs檔案

Visual Studio 新專案精靈生成的 program.cs 文件

現在我們可以添加IronOCR庫並測試程式。

4. 安裝IronOCR

在 Visual Studio 中,您可以輕鬆地將 IronOCR 整合到您的 C# 專案中。

IronOCR 提供多種處理方式來整合 C# .NET 專案。 在這裡,我們將討論其中之一:使用 NuGet Package Manager 安裝 IronOCR。

在 Visual Studio 中,依次點擊 工具 > NuGet 套件管理員 > 套件管理員主控台

如何在 C# 中從截圖中提取文字的 OCR,圖 3:NuGet 套件管理器 UI

NuGet 套件管理器介面

點擊後,Visual Studio 視窗底部會出現一個新的控制台。 在控制台中輸入以下命令並按下 Enter 鍵。

Install-Package IronOcr

IronOCR 可以在幾秒鐘內安裝完成。

5. 使用 IronOCR 對截圖進行光學字符識別 (光學字符識別)

IronOCR 是一個功能強大的 OCR 程式庫,可用於從螢幕截圖中識別文字。 使用 IronOCR,您可以截取文字的螢幕截圖,然後利用該庫的 OCR 功能將螢幕截圖中的文字轉換為數位化、可編輯的格式。 以下是如何使用IronOCR在C#中對截圖進行OCR的示例。 要執行截圖 OCR,只需截取一張截圖並運行以下代碼,將文本提取到您想要的任何輸出格式。

using IronOcr;
using System;

string imageText = new IronTesseract().Read("ocr.png").Text;
Console.WriteLine(imageText);
using IronOcr;
using System;

string imageText = new IronTesseract().Read("ocr.png").Text;
Console.WriteLine(imageText);
Imports IronOcr
Imports System

Private imageText As String = (New IronTesseract()).Read("ocr.png").Text
Console.WriteLine(imageText)
VB   C#

輸入圖像檔案

如何在 C# 中從螢幕截圖中取得文字 OCR,圖 4:用作輸入的樣本螢幕截圖

用於輸入的示例截圖

文字輸出

- IRONOCR for NET
- The C# OCR Library
- OCR for C# to scan and read images & PDFs
- NET OCR library with 127+ global language packs
- Output as text, structured data, or searchable PDFs
- Supports NET 6, 5, Core, Standard, Framework

6. 使用 IronOCR 在特定區域執行光學字符識別(OCR)

IronOCR 允許您在圖像的特定區域執行 OCR。 當圖像包含多個文字區域,而您只想識別特定區域內的文字時,這可能會很有用。 下面顯示了一個範例代碼。

using IronOcr;
using IronSoftware.Drawing;
using System;

var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput())
{
    var contentArea = new CropRectangle(x: 0, y: 0, width: 350, height: 150);
    ocrInput.AddImage("ocr.png", contentArea);
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using IronSoftware.Drawing;
using System;

var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput())
{
    var contentArea = new CropRectangle(x: 0, y: 0, width: 350, height: 150);
    ocrInput.AddImage("ocr.png", contentArea);
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports IronSoftware.Drawing
Imports System

Private ocrTesseract = New IronTesseract()
Using ocrInput As New OcrInput()
	Dim contentArea = New CropRectangle(x:= 0, y:= 0, width:= 350, height:= 150)
	ocrInput.AddImage("ocr.png", contentArea)
	Dim ocrResult = ocrTesseract.Read(ocrInput)
	Console.WriteLine(ocrResult.Text)
End Using
VB   C#

輸出

  • IRONOCR for .NET
  • C# OCR 函式庫
  • OCR for C# 用於掃描和閱讀圖像及 PDF
  • .NET OCR 庫,配備127個以上的全球語言包

7. 使用 IronOCR 對圖片進行光學字符辨識(OCR)

要對圖像進行OCR並將識別的文字保存在.txt文件中,可以使用以下程式碼。

using IronOcr;
using System;

var ocr = new IronTesseract();
using (var input = new OcrInput("ocr.png"))
{
    var result = ocr.Read(input);
    result.SaveAsTextFile("output.txt");
}
using IronOcr;
using System;

var ocr = new IronTesseract();
using (var input = new OcrInput("ocr.png"))
{
    var result = ocr.Read(input);
    result.SaveAsTextFile("output.txt");
}
Imports IronOcr
Imports System

Private ocr = New IronTesseract()
Using input = New OcrInput("ocr.png")
	Dim result = ocr.Read(input)
	result.SaveAsTextFile("output.txt")
End Using
VB   C#

輸出文件的內容如下所示:

如何在 C# 中從螢幕截圖中獲取文字進行 OCR,圖 5:生成的 output.txt 文件的內容

生成的output.txt文件內容

8. 了解更多

閱讀該圖像文本提取有關如何對影像執行光學字元辨識 (OCR) 的更多資訊,請參閱教學。

IronOCR 是一部分套件五個針對不同類型文件設計的 .NET 庫。 您可以用兩個的價格購買全部五個庫。授權.

< 上一頁
如何從 C# 教程中獲取發票文本
下一個 >
如何在 C# 中進行字幕光學字符識別(教程)

準備開始了嗎? 版本: 2024.11 剛剛發布

免費 NuGet 下載 總下載次數: 2,698,613 查看許可證 >