使用 IRONOCR

如何在C#中創建OCR軟體示範

發佈 2024年6月6日
分享:

光學字符識別(光學字符識別)是一種技術,可以將各種文件格式(包括掃描的紙質文件、PDF、數位文件或使用數位相機拍攝的印刷文本圖像)轉換為可編輯和可搜索的機器編碼文本資料。

IronOCR是一個出色的OCR引擎庫,為開發者提供強大的OCR功能。 在本文中,我們將探索如何使用IronOCR進行光學字符識別(OCR),並提供代碼範例和OCR軟體演示

什麼是IronOCR?

IronOCR 是一個強大的 .NET 函式庫,旨在促進光學字符識別(光學字符識別)在 C# 和 VB.NET 應用程式中。 借助先進的算法和機器學習技術,IronOCR 能夠準確地從掃描的 PDF 文件、圖片和 PDF 中提取文字和內容,使得這些文件的處理、搜索和分析可程式化地更為簡便。

透過其簡單明瞭的 API 和豐富的功能,開發人員可以將 OCR 功能無縫整合到其應用程式中,以自動化數據提取、文件處理、數據輸入和內容管理任務。 無論您是處理業務、發票、報表、自動數據提取、可搜尋的 PDF 還是其他任何文本豐富的文件,IronOCR 都提供了一個可靠的解決方案,高效地處理 OCR 需求。

開始使用IronOCR

在深入研究代碼示例之前,您需要安裝通過NuGet套件管理器安裝IronOCR. 您可以在套件管理控制台中執行以下命令來安裝IronOCR:

Install-Package IronOcr
Install-Package IronOcr
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'Install-Package IronOcr
VB   C#

使用IronOCR進行光學字符識別 (光學字符識別)

基本文字辨識

要使用 IronOCR 執行基本文本識別,您可以使用以下代碼片段:

using IronOcr;
using System;
IronTesseract ocrTesseract = new IronTesseract();
using (OcrInput ocrInput = new OcrInput("ocr.png"))
{
    OcrResult ocrResult = ocrTesseract.Read(ocrInput);
    string RecognizedText = ocrResult.Text;
    Console.WriteLine(RecognizedText);
}
using IronOcr;
using System;
IronTesseract ocrTesseract = new IronTesseract();
using (OcrInput ocrInput = new OcrInput("ocr.png"))
{
    OcrResult ocrResult = ocrTesseract.Read(ocrInput);
    string RecognizedText = ocrResult.Text;
    Console.WriteLine(RecognizedText);
}
Imports IronOcr
Imports System
Private ocrTesseract As New IronTesseract()
Using ocrInput As New OcrInput("ocr.png")
	Dim ocrResult As OcrResult = ocrTesseract.Read(ocrInput)
	Dim RecognizedText As String = ocrResult.Text
	Console.WriteLine(RecognizedText)
End Using
VB   C#

此代碼使用 IronOCR 執行光學字符識別(光學字符識別)在名為「ocr.png」的圖像文件上。 它初始化一個IronTesseract對象並將影像檔的文字層讀入OcrInput對象中。

然後將 OCR 結果以RecognizedText檢索,並列印到控制台。

輸出


     - LOGO 商店

- LOREM IPSUM

- DOLOR SITAMET CONSECTETUR


     - LOGO 商店

- LOREM IPSUM

- DOLOR SITAMET CONSECTETUR
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'- LOGO 商店 - LOREM IPSUM - DOLOR SITAMET CONSECTETUR
VB   C#
  • ADIPISCING ELIT

    • 1 假文 $3.20

    • 2 ORNARE MALESUADA $9.50

      • 3 發酵罐 $5.90
    • 4 為圖示表 $6.00

    • 5 ELEIFEND $9.00

    • 6 SEMNISIMASSA $0.50

      • 7 DUIS FAMES DIS $7.60
    • 8 FACILISIRISUS $810

      • 總金額 $49.80

      • 現金 $50.00

    請提供內容以進行翻譯。

進階OCR選項

IronOCR 提供多種選項,使您能夠根據圖像文件和需求自訂 OCR 流程。 例如,您可以指定OCR語言,調整圖像預處理設置,或啟用文本清理。 以下是展示其中一些高級選項的範例:

using IronOcr;
class Program
{
    static void Main()
    {
        var ocr = new IronTesseract();
        using var ocrInput = new OcrInput();
    ocrInput.LoadImage(@"images\image.png");
        // Set OCR language to English
        ocr.Language = OcrLanguage.English;
        // Enable text cleaning
        ocrInput.DeNoise();
    ocrInput.EnhanceResolution(225);
        var result = ocr.Read(ocrInput);
        if (result != null && result.Text != null)
        {
            Console.WriteLine($"Recognized Text: {result.Text}");
        }
    }
}
using IronOcr;
class Program
{
    static void Main()
    {
        var ocr = new IronTesseract();
        using var ocrInput = new OcrInput();
    ocrInput.LoadImage(@"images\image.png");
        // Set OCR language to English
        ocr.Language = OcrLanguage.English;
        // Enable text cleaning
        ocrInput.DeNoise();
    ocrInput.EnhanceResolution(225);
        var result = ocr.Read(ocrInput);
        if (result != null && result.Text != null)
        {
            Console.WriteLine($"Recognized Text: {result.Text}");
        }
    }
}
Imports IronOcr
Friend Class Program
	Shared Sub Main()
		Dim ocr = New IronTesseract()
		Dim ocrInput As New OcrInput()
	ocrInput.LoadImage("images\image.png")
		' Set OCR language to English
		ocr.Language = OcrLanguage.English
		' Enable text cleaning
		ocrInput.DeNoise()
	ocrInput.EnhanceResolution(225)
		Dim result = ocr.Read(ocrInput)
		If result IsNot Nothing AndAlso result.Text IsNot Nothing Then
			Console.WriteLine($"Recognized Text: {result.Text}")
		End If
	End Sub
End Class
VB   C#

該代碼使用 IronOCR 對位於 "images" 資料夾中的圖像文件 "image.png" 執行光學字符識別 (OCR)。 它將 OCR 語言設置為英語,清除圖像噪點並提高其解析度。 從圖像中識別的文本被提取出來,然後打印到控制台。

如何在 C# 中創建 OCR 軟件示範:圖 1

條碼讀取

IronOCR 還支持條碼掃描,讓您開發軟體以從圖像中提取條碼信息。 以下是使用 IronOCR 讀取條碼的程式碼範例:

using IronOcr;
using System;
var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
using var ocrInput = new OcrInput();
ocrInput.LoadImage(@"images\imageWithBarcode.png");
var ocrResult = ocrTesseract.Read(ocrInput);
foreach (var barcode in ocrResult.Barcodes)
{
    Console.WriteLine(barcode.Value);
}
using IronOcr;
using System;
var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
using var ocrInput = new OcrInput();
ocrInput.LoadImage(@"images\imageWithBarcode.png");
var ocrResult = ocrTesseract.Read(ocrInput);
foreach (var barcode in ocrResult.Barcodes)
{
    Console.WriteLine(barcode.Value);
}
Imports IronOcr
Imports System
Private ocrTesseract = New IronTesseract()
ocrTesseract.Configuration.ReadBarCodes = True
Dim ocrInput As New OcrInput()
ocrInput.LoadImage("images\imageWithBarcode.png")
Dim ocrResult = ocrTesseract.Read(ocrInput)
For Each barcode In ocrResult.Barcodes
	Console.WriteLine(barcode.Value)
Next barcode
VB   C#

該代碼使用IronOCR來檢測和讀取「images」文件夾中「imageWithBarcode.png」圖像文件上的條碼。 它通過將 ReadBarCodes 設置為 true 來配置 IronOCR 以啟用條碼讀取。 檢測到的條碼值隨後將被打印到控制台。

如何在 C# 中創建 OCR 軟體示範:圖 2

PDF文本提取

IronOCR 也可以從 PDF 和掃描文件中提取文本。 以下是一個使用 IronOCR 從 PDF 文件中提取文本的代碼範例:

using IronOcr;
using System;
var ocrTesseract = new IronTesseract();
using var ocrInput = new OcrInput();
// OCR entire document
ocrInput.LoadPdf("Email_Report.pdf");
int[] pages = { 1, 2, 3, 4, 5 };
// Alternatively OCR selected page numbers
ocrInput.LoadPdfPages("example.pdf", pages, Password: "password");
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);
using IronOcr;
using System;
var ocrTesseract = new IronTesseract();
using var ocrInput = new OcrInput();
// OCR entire document
ocrInput.LoadPdf("Email_Report.pdf");
int[] pages = { 1, 2, 3, 4, 5 };
// Alternatively OCR selected page numbers
ocrInput.LoadPdfPages("example.pdf", pages, Password: "password");
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);
Imports IronOcr
Imports System
Private ocrTesseract = New IronTesseract()
Private ocrInput = New OcrInput()
' OCR entire document
ocrInput.LoadPdf("Email_Report.pdf")
Dim pages() As Integer = { 1, 2, 3, 4, 5 }
' Alternatively OCR selected page numbers
ocrInput.LoadPdfPages("example.pdf", pages, Password:= "password")
Dim ocrResult = ocrTesseract.Read(ocrInput)
Console.WriteLine(ocrResult.Text)
VB   C#

該程式碼使用 IronOCR 對名為 "Email_Report.pdf" 的 PDF 文件進行 OCR 處理。 它可以使用 LoadPdf 進行整份文件的 OCR,或者使用密碼透過 LoadPdfPages 對 "example.pdf" 的特定頁面進行 OCR。 從 OCR 操作中識別的文本將打印到控制台。

如何在C#中创建OCR软件演示:图3

結論

IronOCR是一個強大的 .NET 庫,提供先進的光學字符識別(OCR)軟體功能,使開發人員能夠輕鬆在其應用程式中執行 OCR 任務。 在本文中,我們探索了如何使用IronOCR執行基本和高級OCR軟件演示,並提供了代碼示例。

無論您需要辨識手寫文字、各種數位格式、掃描讀取條碼,或從 PDF 文件中擷取文字,IronOCR 都以其全面的功能集滿足您的需求。

如果您正在進行一個 .NET 專案,並且需要整合 OCR 功能,那麼在考慮不同的 OCR 引擎時,IronOCR 絕對值得考慮。 由於其易於使用、速度快、靈活性高以及豐富的文檔,這使其成為開發者在自動化 OCR 任務中的熱門選擇。

那麼,為什麼不試試 IronOCR,看看它如何簡化您的 OCR 專案開發過程呢? 它可能是您專案的最佳OCR引擎。

IronOCR 提供免費試用授權然後從 749 美元開始,讓您在項目中充分利用 IronOCR。

若要了解更多關於 IronOCR 的資訊,請造訪這裡.

< 上一頁
多語言 Tesseract OCR(開發者教學)
下一個 >
如何在 C# 中執行車輛註冊 OCR

準備開始了嗎? 版本: 2024.11 剛剛發布

免費 NuGet 下載 總下載次數: 2,698,613 查看許可證 >