使用 IRONOCR

如何在C#中創建OCR軟體示範

光學字符識別(OCR)是一種技術,可以將各種文件格式,包括掃描的紙質文件、PDF、數位文件或使用數位相機拍攝的印刷文字圖片,轉換為可編輯和可搜索的機器編碼文本數據。

IronOCR 是一個出色的OCR引擎庫,為開發人員提供強大的OCR功能。 在本文中,我們將探討如何使用IronOCR進行OCR,並提供OCR軟體示範的程式碼範例。

什麼是IronOCR?

IronOCR 是一個強大的 .NET 函式庫,專為在 C# 和 VB.NET 應用程式中實現光學字符識別 (OCR) 而設計。 借助先進的算法和機器學習技術,IronOCR 能夠準確地從掃描的 PDF 文件、圖片和 PDF 中提取文字和內容,使得這些文件的處理、搜索和分析可程式化地更為簡便。

透過其簡單明瞭的 API 和豐富的功能,開發人員可以將 OCR 功能無縫整合到其應用程式中,以自動化數據提取、文件處理、數據輸入和內容管理任務。 無論您是處理業務、發票、報表、自動數據提取、可搜尋的 PDF 還是其他任何文本豐富的文件,IronOCR 都提供了一個可靠的解決方案,高效地處理 OCR 需求。

開始使用IronOCR

在深入了解程式碼範例之前,您需要透過NuGet 套件管理器安裝 IronOCR。 您可以在套件管理控制台中執行以下命令來安裝IronOCR:

Install-Package IronOcr
Install-Package IronOcr
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'Install-Package IronOcr
$vbLabelText   $csharpLabel

使用IronOCR進行光學字符識別 (OCR)

基本文字辨識

要使用 IronOCR 執行基本文本識別,您可以使用以下代碼片段:

using IronOcr;
using System;
IronTesseract ocrTesseract = new IronTesseract();
using (OcrInput ocrInput = new OcrInput("ocr.png"))
{
    OcrResult ocrResult = ocrTesseract.Read(ocrInput);
    string RecognizedText = ocrResult.Text;
    Console.WriteLine(RecognizedText);
}
using IronOcr;
using System;
IronTesseract ocrTesseract = new IronTesseract();
using (OcrInput ocrInput = new OcrInput("ocr.png"))
{
    OcrResult ocrResult = ocrTesseract.Read(ocrInput);
    string RecognizedText = ocrResult.Text;
    Console.WriteLine(RecognizedText);
}
Imports IronOcr
Imports System
Private ocrTesseract As New IronTesseract()
Using ocrInput As New OcrInput("ocr.png")
	Dim ocrResult As OcrResult = ocrTesseract.Read(ocrInput)
	Dim RecognizedText As String = ocrResult.Text
	Console.WriteLine(RecognizedText)
End Using
$vbLabelText   $csharpLabel

此程式碼使用IronOCR在名為「ocr.png」的影像檔上執行光學字元辨識(OCR)。 它初始化一個 IronTesseract 物件,並將影像檔的文字層讀入 OcrInput 物件中。

然後,OCR 結果作為 RecognizedText 檢索並列印到控制台。

輸出


LOGO 商店

- LOREM IPSUM

- DOLOR SITAMET CONSECTETUR

    - ADIPISCING ELIT

- 1 假文 $3.20

- 2 ORNARE MALESUADA $9.50

- 3 波塔發門圖 $5.90

- 4 為圖示表 $6.00

- 5 ELEIFEND $9.00

- 6 SEMNISIMASSA $0.50

     - 7 DUIS FAMES DIS $7.60

- 8 FACILISIRISUS $810

總金額 $49.80

- 現金 $50.00


LOGO 商店

- LOREM IPSUM

- DOLOR SITAMET CONSECTETUR

    - ADIPISCING ELIT

- 1 假文 $3.20

- 2 ORNARE MALESUADA $9.50

- 3 波塔發門圖 $5.90

- 4 為圖示表 $6.00

- 5 ELEIFEND $9.00

- 6 SEMNISIMASSA $0.50

     - 7 DUIS FAMES DIS $7.60

- 8 FACILISIRISUS $810

總金額 $49.80

- 現金 $50.00
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'LOGO 商店 - LOREM IPSUM - DOLOR SITAMET CONSECTETUR - ADIPISCING ELIT - 1 假文 $3.20 - 2 ORNARE MALESUADA $9.50 - 3 波塔發門圖 $5.90 - 4 為圖示表 $6.00 - 5 ELEIFEND $9.00 - 6 SEMNISIMASSA $0.50 - 7 DUIS FAMES DIS $7.60 - 8 FACILISIRISUS $810 總金額 $49.80 - 現金 $50.00
$vbLabelText   $csharpLabel

### 進階OCR選項

IronOCR 提供多種選項,使您能夠根據圖像文件和需求自訂 OCR 流程。 例如,您可以指定OCR語言,調整圖像預處理設置,或啟用文本清理。 以下是展示其中一些高級選項的範例:

```cs
using IronOcr;
class Program
{
    static void Main()
    {
        var ocr = new IronTesseract();
        using var ocrInput = new OcrInput();
    ocrInput.LoadImage(@"images\image.png");
        // Set OCR language to English
        ocr.Language = OcrLanguage.English;
        // Enable text cleaning
        ocrInput.DeNoise();
    ocrInput.EnhanceResolution(225);
        var result = ocr.Read(ocrInput);
        if (result != null && result.Text != null)
        {
            Console.WriteLine($"Recognized Text: {result.Text}");
        }
    }
}

該代碼使用 IronOCR 對位於 "images" 資料夾中的圖像文件 "image.png" 執行光學字符識別 (OCR)。 它將 OCR 語言設置為英語,清除圖像噪點並提高其解析度。 從圖像中識別的文本被提取出來,然後打印到控制台。

如何在 C# 中創建 OCR 軟體演示:圖 1

條碼讀取

IronOCR 還支持條碼掃描,讓您開發軟體以從圖像中提取條碼信息。 以下是使用 IronOCR 讀取條碼的程式碼範例:

using IronOcr;
using System;
var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
using var ocrInput = new OcrInput();
ocrInput.LoadImage(@"images\imageWithBarcode.png");
var ocrResult = ocrTesseract.Read(ocrInput);
foreach (var barcode in ocrResult.Barcodes)
{
    Console.WriteLine(barcode.Value);
}
using IronOcr;
using System;
var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
using var ocrInput = new OcrInput();
ocrInput.LoadImage(@"images\imageWithBarcode.png");
var ocrResult = ocrTesseract.Read(ocrInput);
foreach (var barcode in ocrResult.Barcodes)
{
    Console.WriteLine(barcode.Value);
}
Imports IronOcr
Imports System
Private ocrTesseract = New IronTesseract()
ocrTesseract.Configuration.ReadBarCodes = True
Dim ocrInput As New OcrInput()
ocrInput.LoadImage("images\imageWithBarcode.png")
Dim ocrResult = ocrTesseract.Read(ocrInput)
For Each barcode In ocrResult.Barcodes
	Console.WriteLine(barcode.Value)
Next barcode
$vbLabelText   $csharpLabel

該代碼使用IronOCR來檢測和讀取「images」文件夾中「imageWithBarcode.png」圖像文件上的條碼。 它通過將ReadBarCodes設置為true來配置IronOCR以啟用條碼讀取。 檢測到的條碼值隨後將被打印到控制台。

如何在 C# 中建立 OCR 軟體示範:圖 2

PDF文本提取

IronOCR 也可以從 PDF 和掃描文件中提取文本。 以下是一個使用 IronOCR 從 PDF 文件中提取文本的代碼範例:

using IronOcr;
using System;
var ocrTesseract = new IronTesseract();
using var ocrInput = new OcrInput();
// OCR entire document
ocrInput.LoadPdf("Email_Report.pdf");
int[] pages = { 1, 2, 3, 4, 5 };
// Alternatively OCR selected page numbers
ocrInput.LoadPdfPages("example.pdf", pages, Password: "password");
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);
using IronOcr;
using System;
var ocrTesseract = new IronTesseract();
using var ocrInput = new OcrInput();
// OCR entire document
ocrInput.LoadPdf("Email_Report.pdf");
int[] pages = { 1, 2, 3, 4, 5 };
// Alternatively OCR selected page numbers
ocrInput.LoadPdfPages("example.pdf", pages, Password: "password");
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);
Imports IronOcr
Imports System
Private ocrTesseract = New IronTesseract()
Private ocrInput = New OcrInput()
' OCR entire document
ocrInput.LoadPdf("Email_Report.pdf")
Dim pages() As Integer = { 1, 2, 3, 4, 5 }
' Alternatively OCR selected page numbers
ocrInput.LoadPdfPages("example.pdf", pages, Password:= "password")
Dim ocrResult = ocrTesseract.Read(ocrInput)
Console.WriteLine(ocrResult.Text)
$vbLabelText   $csharpLabel

該程式碼使用 IronOCR 對名為 "Email_Report.pdf" 的 PDF 文件進行 OCR 處理。 它可以使用LoadPdf進行整份文件的OCR,或使用LoadPdfPages和密碼從「example.pdf」中OCR特定頁面。 從 OCR 操作中識別的文本將打印到控制台。

如何在 C# 中創建 OCR 軟件演示:圖 3

結論

IronOCR 是一個強大的 .NET 函式庫,提供先進的 OCR 軟體功能,讓開發人員能夠輕鬆地在其應用程式中執行 OCR 任務。 在本文中,我們探索了如何使用IronOCR執行基本和高級OCR軟件演示,並提供了代碼示例。

如果您正在進行一個 .NET 專案,並且需要整合 OCR 功能,那麼在考慮不同的 OCR 引擎時,IronOCR 絕對值得考慮。 由於其易於使用、速度快、靈活性高以及豐富的文檔,這使其成為開發者在自動化 OCR 任務中的熱門選擇。

那麼,為什麼不試試 IronOCR,看看它如何簡化您的 OCR 專案開發過程呢? 它可能是您專案的最佳OCR引擎。

IronOCR 提供免費的試用授權,然後從 $749 美元起,使您能在專案中繼續充分利用 IronOCR。

要了解更多關於IronOCR的信息,請造訪此處

Kannaopat Udonpant
坎納帕特·烏頓潘
軟體工程師
在成為軟體工程師之前,Kannapat 在日本北海道大學完成了環境資源博士學位。在攻讀學位期間,Kannapat 也成為了車輛機器人實驗室的成員,該實驗室隸屬於生物生產工程學系。2022 年,他利用自己的 C# 技能,加入了 Iron Software 的工程團隊,專注於 IronPDF 的開發。Kannapat 珍視這份工作,因為他可以直接向負責撰寫大部分 IronPDF 程式碼的開發人員學習。除了同儕學習外,Kannapat 還享受在 Iron Software 工作的社交方面。當他不在撰寫程式碼或文件時,Kannapat 通常會在 PS5 上玩遊戲或重看《最後生還者》。
< 上一頁
多語言 Tesseract OCR(開發者教學)
下一個 >
如何在 C# 中執行車輛註冊 OCR