在生产环境中测试,无水印。
随时随地满足您的需求。
获得30天的全功能产品。
几分钟内就能启动并运行。
在您的产品试用期间,全面访问我们的支持工程团队。
光学字符识别,或称为OCR,是一种允许计算机从图片或扫描文档中识别和提取文本的技术。 将含文字的照片转换为机器可读的文本数据是 OCR 软件的主要目标。 该技术可简化数据录入、文档数字化和自动化程序,例如您的应付账款流程。 在本文中,我们将看到OCR解决方案在处理发票中的应用,以及它如何使手动发票处理过时。
安装IronOCR C# 库。
在 Visual Studio 中创建一个新的 C# 项目
检查一个功能丰富的 C# 库,以完成收据上的 OCR。
利用 Tesseract 从收据中提取数据
在提取的文本结果中查找特定数据。
企业可以利用 OCR 发票处理技术将基于图像或扫描的账单转换为机器可读文本,该技术可自动从发票中提取文本和数据。 由于实现了自动化,整体上提高了财务程序的效率,减少了手动数据录入,并简化了发票处理方式。
光学字符识别(OCR)通过IronOCR**,一个.NET库,为使用C#编程语言的开发人员提供了可能。 IronOCR 由 Iron Software 创建,用户可以通过它从照片、扫描文档和 PDF 文件中提取文本,因此对于需要自动文本识别的应用程序来说是一款非常有用的工具。 要从发票中提取文本和数据,您必须将 IronOCR 库集成到您的 .NET 应用程序中,以便使用 IronOCR 自动处理发票。
IronOCR 利用人工智能算法帮助避免欺诈。 这样才能快速识别错误、欺诈和重复发票。 通过卓越的 OCR 发票数据提取功能减少错误,从而避免人为数据录入造成的错误。 了解有关IronOCR的更多信息,请查看此处。
IronOCR 的突出特点是:
OCR 软件通过处理获取的图片或文档,扫描并提取扫描或拍照信息中的文本。 文档的布局、单词和字符由 OCR 引擎进行解释。
必须记住,OCR 设置的准确性、发票的复杂性以及输入照片的质量都会影响解决方案的成功与否。 此外,使用 IronOCR 的 API 和理解库提供的特殊功能可能是集成过程中的必要步骤。 有关最新的详细信息和建议,请始终查阅 IronOCR 官方文献。
启动 Visual Studio 程序后,导航至 "文件菜单"。 进入 "新项目",选择 "控制台应用程序"。 在本篇文章中,我们将使用控制台程序创建 PDF 文档。
在相关文本框中键入项目名称并选择文件位置。 接下来,如下图所示,单击 "创建 "按钮并选择必要的 .NET Framework。
既然应用程序已经选定,Visual Studio 项目将创建其结构。 如果您选择了控制台、Windows 或网页版本,它将打开 program.cs 文件,您可以添加代码并构建/运行应用程序。
为了测试代码,我们可能会在之后添加库。
使用 Visual Studio 的 NuGet 软件包管理工具可以将软件包直接安装到您的解决方案中。 可使用下面的快照查看 NuGet 包管理器。
它具有一个搜索框,可显示 NuGet 网站上的软件包列表。从下面的截图中可以看出,我们需要在软件包管理器中搜索 IronOCR 这个短语:
上图可以为我们提供相关搜索词的列表。 我们必须按要求选择安装解决方案包。
IronOCR 是一个功能强大的 OCR 库,可用于提取数据和读取发票数据。 有了 IronOCR,您可以拍一张收据的照片,然后用它将收据转换成易于处理和分析的机器可读文本,而不会损害数据隐私。 通过发票 OCR,我们可以将发票数据提取为数字格式。
这是 IronOCR 如何处理供应商发票和从纸质发票中提取文本的一个示例。
using System;
using System.Collections.Generic;
using IronOcr;
var Ocr = new IronTesseract(); // nothing to configure
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var Input = new OcrInput())
{
Input.AddImage(@"invoice.png"); // adding the example invoice to read
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
Console.ReadKey();
}
using System;
using System.Collections.Generic;
using IronOcr;
var Ocr = new IronTesseract(); // nothing to configure
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var Input = new OcrInput())
{
Input.AddImage(@"invoice.png"); // adding the example invoice to read
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
Console.ReadKey();
}
Imports System
Imports System.Collections.Generic
Imports IronOcr
Private Ocr = New IronTesseract() ' nothing to configure
Ocr.Language = OcrLanguage.EnglishBest
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5
Using Input = New OcrInput()
Input.AddImage("invoice.png") ' adding the example invoice to read
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
Console.ReadKey()
End Using
以下是上述代码的结果:
上例显示,IronOCR 帮助我们实现了 OCR 并在控制台中显示提取的数据。
除文本外,还可使用 IronOCR 扫描收据上的 BarCode。 要使用IronOCR扫描收据上的条形码,您必须将ReadBarCodes
函数与BarcodeReader
类一起使用。
这是如何使用 IronOCR 解码收据图像以读取条形码的示例。
var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
using (var ocrInput = new OcrInput("invoice.png"))
{
var ocrResult = ocrTesseract.Read(ocrInput);
foreach (var barcode in ocrResult.Barcodes)
{
Console.WriteLine(barcode.Value);
}
}
var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
using (var ocrInput = new OcrInput("invoice.png"))
{
var ocrResult = ocrTesseract.Read(ocrInput);
foreach (var barcode in ocrResult.Barcodes)
{
Console.WriteLine(barcode.Value);
}
}
Dim ocrTesseract = New IronTesseract()
ocrTesseract.Configuration.ReadBarCodes = True
Using ocrInput As New OcrInput("invoice.png")
Dim ocrResult = ocrTesseract.Read(ocrInput)
For Each barcode In ocrResult.Barcodes
Console.WriteLine(barcode.Value)
Next barcode
End Using
虽然 IronOCR 提供了强大的 OCR 功能,但必须记住,整个发票处理工作流程可能还需要数据验证、业务逻辑和财务系统连接等其他要素。 您可能需要将 IronOCR 与其他工具或部件结合起来,以实现完整的发票处理解决方案,这取决于您的特定用例。
结果
要了解有关IronOCR在线演示的更多信息,请参阅此处。
作为一个强大且适应性强的光学字符识别(OCR)库,IronOCR 脱颖而出,结论如此。 通过 Iron Software .NET 库提供的这些包罗万象的功能集合,从照片、扫描文档和 PDF 文件中提取文本变得可能而简单。
最后,IronOCR 是一款卓越的 OCR 解决方案,具有出色的集成性、灵活性和准确性。 由于其无与伦比的精确度、先进的算法以及识别多种文档格式的能力,IronOCR 是目前市场上最佳的 OCR 解决方案,它提供了更好的文档和代码示例,使初学者能够快速、轻松地学习。
可以使用 IronOCR 的高性价比开发版,购买 IronOCR 软件包可获得终身许可。 因为IronOCR软件包起价为$749,一次性付费可用于多个系统,它提供了卓越的价值。 它为 IronOCR 授权用户提供全天候在线工程师支持。 有关费用的更多信息,请参阅IronOCR 网站。