使用 IRONOCR

如何在C#中创建OCR收据扫描器

Name: IronOCR
Brand: Iron Software
Availability: InStock
Rating: 4.86 (101 reviews)

坎那帕·乌东攀

2024年二月18日

本教程旨在帮助初学者使用IronOCR，一个C#中的OCR API，创建一个OCR收据扫描器。通过本指南的学习，您将了解如何实施光学字符识别（OCR）技术，使用收据 OCR API 将不同类型的收据文件转换为可编辑和可搜索的数据。对于希望实现费用管理自动化并尽量减少人工数据输入的企业来说，这项技术可以改变游戏规则。让我们开始吧！

How To Create an OCR Receipt Scanner In C#1. Create a C# Console project in Visual Studio

使用 NuGet 软件包管理器安装 OCR 库3。使用 OcrInput 方法将收据加载到程序中
使用 "读取 "方法提取文本5。在控制台显示提取的文本

先决条件

在我们进入编码部分之前，请确保您具备以下条件：

Visual Studio：这将是我们的集成开发环境（IDE），我们将在其中编写和运行我们的C#代码。
IronOCR Library：我们将使用IronOCR，一种可以轻松集成到C#应用程序中的高级OCR库。
1. Sample Receipt：用于测试我们的OCR 实现的名为Sample_Receipt.jpg的收据图像文件。

步骤 1：设置项目

打开 Visual Studio：找到桌面或应用程序菜单中的 Visual Studio 图标，双击以打开程序。

创建新项目：打开 Visual Studio 后，您会看到一个启动窗口。点击“创建新项目”按钮。如果您已经打开了 Visual Studio，但没有看到启动窗口，可以通过单击顶部菜单中的 "文件">"新建">"项目 "来访问该窗口。

选择项目类型：在“创建新项目”窗口中，您将看到各种项目模板。在搜索框中键入“Console App”以过滤选项，然后根据您的偏好和兼容性选择 Console App (.NET Core) 或 Console App (.NET Framework)。然后点击下一步按钮。

配置您的新项目：现在，您将看到一个标题为“配置您的新项目”的屏幕。

在项目名称字段中，输入 OCRReceiptScanner 作为项目名称。
在位置字段中选择或确认保存项目的位置。
如果希望解决方案名称与项目名称不同，还可以选择指定解决方案名称。
填写这些详细信息后，点击下一步按钮。
附加信息： 您可能会被要求选择目标 .NET Framework。选择最新版本（除非您有特定的兼容性要求），然后点击创建。

步骤 2：集成 IronOCR

在使用 IronOCR 库之前，我们需要将其包含在我们的项目中。遵循以下步骤：

右键单击解决方案资源管理器中的项目。
选择 "管理 NuGet 软件包"。
在 NuGet 包管理器窗口中，您将看到几个选项卡，如浏览、已安装、更新和合并。点击浏览选项卡。
在搜索框中输入IronOcr。这是我们希望添加到项目中的库的名称。按回车键搜索。
搜索结果将显示 IronOCR 库包。这应该是您最先看到的结果之一。点击选择。
选择 IronOCR 软件包后，您会发现右侧有一个面板显示该软件包的信息，包括描述和版本。此面板中还有一个安装按钮。
点击安装按钮。此操作可能会提示您查看更改，并可能会显示与 IronOcr 一起包含的依赖项列表。检查更改和依赖关系，如果一切正常，则确认并继续安装。

第 3 步：配置项目

安装 IronOCR 后，下一步就是配置项目。方法如下：

添加命名空间：在Program.cs文件的顶部，包含以下命名空间：

using IronOcr;
using System;

using IronOcr;
using System;

Imports IronOcr
Imports System

$vbLabelText $csharpLabel

配置设置：如果您有任何配置设置，例如 API 密钥或许可证密钥，请确保将其包括在内。对于 IronOCR，您需要设置许可证密钥，如提供的代码所示：

License.LicenseKey = "License-Key"; // replace 'License-Key' with your key

License.LicenseKey = "License-Key"; // replace 'License-Key' with your key

License.LicenseKey = "License-Key" ' replace 'License-Key' with your key

$vbLabelText $csharpLabel

步骤 4：阅读收据

现在，让我们编写代码来读取收据。

定义您的收据路径：指定要扫描的收据文件路径。

string pdfFilePath = "Sample_Receipt.jpg";

string pdfFilePath = "Sample_Receipt.jpg";

Dim pdfFilePath As String = "Sample_Receipt.jpg"

$vbLabelText $csharpLabel

Try-Catch 块：使用 try-catch 块实现错误处理。这将有助于您管理 OCR 过程中出现的任何异常情况。

try
{
    // OCR code will go here
}
catch (Exception ex)
{
    // Handle exceptions here
    Console.WriteLine($"An error occurred: {ex.Message}");
}

try
{
    // OCR code will go here
}
catch (Exception ex)
{
    // Handle exceptions here
    Console.WriteLine($"An error occurred: {ex.Message}");
}

Try
	' OCR code will go here
Catch ex As Exception
	' Handle exceptions here
	Console.WriteLine($"An error occurred: {ex.Message}")
End Try

$vbLabelText $csharpLabel

步骤 5：实施 OCR

在第 5 步，我们将深入探讨应用程序的核心功能：实施 OCR 来读取和解释收据中的数据。这包括初始化 OCR 引擎、配置输入、执行 OCR 操作和显示结果。

初始化 IronTesseract

代码的第一部分创建了一个IronTesseract类的实例：

var ocr = new IronTesseract();

var ocr = new IronTesseract();

Dim ocr = New IronTesseract()

$vbLabelText $csharpLabel

通过创建IronTesseract的实例，我们实际上是在设置我们的OCR工具，使其准备好执行文本识别任务。这就好比在驾驶汽车之前先启动发动机。该对象将用于控制 OCR 过程，包括读取输入内容并从中提取文本。

配置 OCR 输入

接下来，我们定义 OCR 流程的输入：

using (var input = new OcrInput(pdfFilePath))
{
    // OCR processing will go here
}

using (var input = new OcrInput(pdfFilePath))
{
    // OCR processing will go here
}

Using input = New OcrInput(pdfFilePath)
	' OCR processing will go here
End Using

$vbLabelText $csharpLabel

在此部分，OcrInput 用于指定我们要处理的文件。 pdfFilePath 是一个包含我们收据文件路径的变量。通过将此变量传递给 OcrInput，我们是在告诉 OCR 引擎，“这是我想让你读取的文件。” using 语句是 C# 中的一个特殊构造，它确保一旦处理完成，用于 OcrInput 的资源（如文件句柄）能够被正确释放。这是一种有效管理资源的方法，可确保您的应用程序顺利运行，而不会造成不必要的内存占用。

执行 OCR

在using块内，我们在ocr实例上调用Read方法：

var result = ocr.Read(input);

var result = ocr.Read(input);

Dim result = ocr.Read(input)

$vbLabelText $csharpLabel

Read 方法将以输入文件路径作为参数。此行将开始扫描收据。它将对给定的输入文件进行 OCR 处理，提取数据并将其存储到变量结果中。我们可以使用该方法提取的文本执行任何文本操作。

输出结果

最后，我们输出 OCR 识别出的文本：

Console.WriteLine(result.Text);

Console.WriteLine(result.Text);

Console.WriteLine(result.Text)

$vbLabelText $csharpLabel

result变量包含OCR过程的输出，而result.Text包含实际从收据中提取的文本。 Console.WriteLine 函数然后将此文本显示在控制台上。这样您就可以看到并验证 OCR 过程的结果。以下是完整的Program.cs文件代码：

using IronOcr;
using Microsoft.Extensions.Configuration;
using System;
class Program
{
    static void Main(string [] args)
    {
        License.LicenseKey = "Your-License-Key";
        string pdfFilePath = "Sample_Receipt.jpg";
        try
        {
            var ocr = new IronTesseract();
            using (var input = new OcrInput(pdfFilePath))
            {
                var result = ocr.Read(input);
                    Console.WriteLine(result.Text);
            }
        }
        catch (Exception ex)
        {
            // Handle exceptions (e.g., file not found, OCR errors) and log them if necessary.
            Console.WriteLine($"An error occurred: {ex.Message}");
        }
    }
}

using IronOcr;
using Microsoft.Extensions.Configuration;
using System;
class Program
{
    static void Main(string [] args)
    {
        License.LicenseKey = "Your-License-Key";
        string pdfFilePath = "Sample_Receipt.jpg";
        try
        {
            var ocr = new IronTesseract();
            using (var input = new OcrInput(pdfFilePath))
            {
                var result = ocr.Read(input);
                    Console.WriteLine(result.Text);
            }
        }
        catch (Exception ex)
        {
            // Handle exceptions (e.g., file not found, OCR errors) and log them if necessary.
            Console.WriteLine($"An error occurred: {ex.Message}");
        }
    }
}

Imports IronOcr
Imports Microsoft.Extensions.Configuration
Imports System
Friend Class Program
	Shared Sub Main(ByVal args() As String)
		License.LicenseKey = "Your-License-Key"
		Dim pdfFilePath As String = "Sample_Receipt.jpg"
		Try
			Dim ocr = New IronTesseract()
			Using input = New OcrInput(pdfFilePath)
				Dim result = ocr.Read(input)
					Console.WriteLine(result.Text)
			End Using
		Catch ex As Exception
			' Handle exceptions (e.g., file not found, OCR errors) and log them if necessary.
			Console.WriteLine($"An error occurred: {ex.Message}")
		End Try
	End Sub
End Class

$vbLabelText $csharpLabel

第 6 步：运行应用程序

构建项目：单击“构建”菜单，然后选择“生成解决方案”。
运行项目：按下 F5 或单击“开始”按钮以运行您的应用程序。
现在，您可以看到从收据输出到控制台的文本。此文本代表从您的收据图像中提取的数据。我们就是这样使用 IronOCR 扫描收据的。这是一个使用 OCR 功能从纸质收据中提取数据的简单示例。这是一个非常通用的实现。您可以修改代码以匹配收据图片的布局。
之后，您可以使用我们扫描收据后从收据中获得的非结构化数据。我们可以从收据的特定部分获取重要信息。或者，我们可以以更有条理的方式展示收据数据。我们可以使用 IronOCR 制作一个 OCR 收据扫描软件应用程序。这将有助于我们提取准确的收据字段数据。

结论

恭喜！您已经使用 C# 和 IronOCR 成功构建了一个 OCR 收据扫描仪。该扫描仪可大大提高数据提取的准确性，满足各种业务需求，如费用跟踪、供应链管理等。以后再也不用查看扫描的收据并手动提取数据了。

IronOCR 提供免费试用，允许用户免费探索和评估其功能。对于那些希望在专业环境中整合和利用全系列功能的用户，许可证起价为 $749，提供全面解决方案以满足强大的 OCR 收据扫描和数据提取需求。

请记住，这仅仅是个开始。您可以扩展此应用程序，以支持各种文件类型，改善数据隐私，或集成其他功能，如识别特定字段的收据，如税额、日期、行项目等。有了 OCR 技术，我们就有了无限可能，为更高效、更智能的业务流程铺平了道路。快乐编码！

坎那帕·乌东攀

立即与工程团队聊天

软件工程师

在成为软件工程师之前，Kannapat 从日本北海道大学完成了环境资源博士学位。在攻读学位期间，Kannapat 还成为了生物生产工程系车辆机器人实验室的成员。2022年，他利用自己的 C# 技能加入了 Iron Software 的工程团队，专注于 IronPDF。Kannapat 珍视他的工作，因为他能直接向编写 IronPDF 大部分代码的开发者学习。除了同伴学习，Kannapat 还享受在 Iron Software 工作的社交方面。不写代码或文档时，Kannapat 通常在 PS5 上玩游戏或重看《最后生还者》。

< 前一页
如何使用C#通过OCR读取身份证件

下一步 >
如何创建发票OCR解决方案