在生产环境中测试,无水印。
随时随地满足您的需求。
获得30天的全功能产品。
几分钟内就能启动并运行。
在您的产品试用期间,全面访问我们的支持工程团队。
发票 OCR API 利用机器学习和计算机视觉将发票数据转换为适合自动处理的格式。 该技术可解决人工数据录入问题,如延迟、成本和错误,从数字发票和扫描发票中准确提取供应商信息、发票号码和价格等详细信息。
本文将使用名为IronOCR的一流发票OCR API。
OcrInput
方法加载现有图像文件Ocr.Read
方法从图像中提取文本。Console.WriteLine
在控制台中打印提取的文本IronOCR 由 Iron Software 开发,是一个为开发人员提供一系列工具的 OCR 库。 它利用机器学习和计算机视觉从扫描文档、图像和 PDF 中提取文本,实现自动处理。 其 API 可集成到各种语言和平台中,从而减少手动数据录入错误并提高效率。 提取的数据可以进行分析并集成到现有系统中,从而有助于决策和提高工作效率。 包括图像预处理、条形码识别和文件解析等功能提升了其多功能性。 IronOCR 使开发人员能够将文本识别功能集成到他们的应用程序中。
在开始使用 IronOCR 之前,需要具备一些先决条件。 这些先决条件包括:
确保在计算机上设置了合适的开发环境。 这通常涉及安装诸如 Visual Studio 之类的集成开发环境 (IDE)。
重要的是要对 C# 编程语言有基本的了解。 这将使您能够有效地理解和修改文章中提供的代码示例。
您需要在项目中安装 IronOCR 库。 这可以通过使用 Visual Studio 中的 NuGet 包管理器或命令行界面来完成。
确保满足这些先决条件,您就可以进入 IronOCR 的工作流程了。
要开始使用 IronOCR,第一步是创建一个新的 Visual Studio 项目。
打开 Visual Studio 并转到 "文件",然后悬停在 "新建 "上,点击 "项目"。
新项目
在新窗口中,选择 "控制台应用程序",然后单击 "下一步"。
控制台应用程序
此时会出现一个新窗口,请写入新项目的名称和位置,然后单击 "下一步"。
项目配置
最后,提供目标框架并点击创建。
目标框架
现在您的新 Visual Studio 项目已经创建。 让我们安装 IronOCR。
有几种下载和安装 IronOCR 库的方法。 以下是两种最简单的方法。
使用 Visual Studio NuGet 软件包管理器
IronOCR 可通过 Visual Studio NuGet 包管理器包含在 C# 项目中。
通过选择工具 > NuGet 包管理器 > 为解决方案管理 NuGet 包,导航到 NuGet 包管理器图形用户界面。
NuGet 包管理器
之后,将出现一个新窗口。 搜索 IronOCR 并将软件包安装到项目中。
在NuGet包管理器UI中选择IronOCR包
还可以使用上述相同方法安装 IronOCR 的其他语言包。
在 Visual Studio 中,依次转到 工具 > NuGet 包管理器 > 包管理器控制台
:ProductInstall
程序包管理器控制台
现在,软件包将下载/安装到当前项目中,并可随时使用。
使用 IronOCR,只需几行代码就能轻松从发票中提取数据,并将提取的数据用于数据录入等进一步处理。 这将取代人工数据录入等工作。
下面是一个提取文本的发票示例。
示例发票
现在,让我们编写代码,从这张发票中提取所有数据。
using IronOcr;
using System;
var ocr = new IronTesseract();
using (var input = new OcrInput(@"r2.png"))
{
var result = ocr.Read(input);
Console.WriteLine(result.Text);
}
using IronOcr;
using System;
var ocr = new IronTesseract();
using (var input = new OcrInput(@"r2.png"))
{
var result = ocr.Read(input);
Console.WriteLine(result.Text);
}
Imports IronOcr
Imports System
Private ocr = New IronTesseract()
Using input = New OcrInput("r2.png")
Dim result = ocr.Read(input)
Console.WriteLine(result.Text)
End Using
上述代码以图像形式获取输入,然后使用Read
方法从IronTesseract
类中提取数据。
发票解析器
您还可以从发票中提取特定数据,如客户发票号码。 以下是从发票中提取客户发票号码的代码。
using IronOcr;
using System;
using System.Text.RegularExpressions;
var orc = new IronTesseract();
using (var input = new OcrInput(@"r2.png"))
{
var result = orc.Read(input);
var linePattern = @"INV\/\d{4}\/\d{5}";
var lineMatch = Regex.Match(result.Text, linePattern);
if (lineMatch.Success)
{
var lineValue = lineMatch.Value;
Console.WriteLine("Customer Invoice number: " + lineValue);
}
}
using IronOcr;
using System;
using System.Text.RegularExpressions;
var orc = new IronTesseract();
using (var input = new OcrInput(@"r2.png"))
{
var result = orc.Read(input);
var linePattern = @"INV\/\d{4}\/\d{5}";
var lineMatch = Regex.Match(result.Text, linePattern);
if (lineMatch.Success)
{
var lineValue = lineMatch.Value;
Console.WriteLine("Customer Invoice number: " + lineValue);
}
}
Imports IronOcr
Imports System
Imports System.Text.RegularExpressions
Private orc = New IronTesseract()
Using input = New OcrInput("r2.png")
Dim result = orc.Read(input)
Dim linePattern = "INV\/\d{4}\/\d{5}"
Dim lineMatch = Regex.Match(result.Text, linePattern)
If lineMatch.Success Then
Dim lineValue = lineMatch.Value
Console.WriteLine("Customer Invoice number: " & lineValue)
End If
End Using
发票扫描
IronOcr 的发票 OCR API 利用机器学习和计算机视觉对发票中的数据提取进行了革命性的改进。 该技术可将发票文本和数字转换为机器可读格式,从而简化数据提取,便于分析、整合和流程改进。 它为发票处理自动化、提高准确性和优化应付账款等工作流程提供了强大的解决方案。 通过这项技术,还可以从扫描的发票中自动输入数据。
IronOCR 使用 Tesseract 的最佳结果提供高准确性,无需任何额外设置。 支持 多页框架 TIFF、PDF 文件以及所有流行的图像格式。 也可以从图像中读取条形码的值。
请访问 主页网站 以获取有关 IronOCR 的更多信息。 有关发票OCR的更多教程,请访问此详细发票OCR教程。 要了解如何使用计算机视觉查找例如发票字段的文本,请访问此计算机视觉指南。