在实际环境中测试
在生产中测试无水印。
随时随地为您服务。
本文将比较两个使用光学字符识别技术的软件库 (光学字符识别) 这两个库用于自动检测和提取图像和扫描文件中的印刷或手写文本。首先,我们将讨论这两个库的特点。然后,我们将使用使用这两个库制作的示例源代码来检查和比较它们的文本识别和提取功能。最后,我们将比较两个库的许可和定价。
本文将比较的软件库有
Syncfusion 的 Essential PDF 库集成了 OCR 功能,可对 PDF 文档中的扫描图像进行图像文本处理。
Syncfusion 的 OCR 处理器可与 Tesseract 3 版本配合使用。 (3.02 和 3.05) 和 4.该库可包含在 .NET Core 和 ASP.NET 应用程序中。
*SyncFusion Essential PDF 的 OCR 功能特点包括:
OCRProcessor
类可用于对 PDF 文件执行 OCR。它基于 Tesseract 数据处理器,而 Tesseract 是世界上最好的 OCR 处理器之一。支持多种语言 谷歌魔方引擎 (同步融合的扩展) 目前支持 60 多种语言,并正在尝试更多语言。
IronOCR 是一个 C# 软件库,允许 .NET 平台开发人员识别和读取图片和 PDF 文档中的文本。它是一个仅用于 .NET 的 OCR 库,使用功能强大的 Tesseract 引擎。Tesseract 3 - 5 版本在 Windows、macOS、Linux、Azure、AWS、Lambda、Mono 和 Xamarin Mac 上开箱即用。
IronOCR 支持 125 种语言,比现有的所有 OCR 引擎覆盖更多的语言、 (默认只安装英文版).
.NET开发人员可以完全控制他们的文档,并可以根据需要进行修改。
IronOCR 提供独特的能力和功能组合,可用于集成、签署、导出、读取可视图像以及从照片中提取细节,与用户的技术背景或硬件复杂程度无关。
在准确率方面,IronOCR SDK 优于其他 OCR 库,达到 99.8%。
IronOCR 类为 C# 开发人员提供了广泛的控制。它们为开发人员提供 OCR (图像和 PDF 转换为文本) 在每个特定实例中,都能实现功能和微调性能。
IronOCR 包括一些配置选项,使库能够处理质量不理想的图像。这些可用的配置包括清除背景噪音、增强对比度、增强分辨率、语言、策略、旋转和拉直、色彩空间、检测深色背景上的白色文本以及输入图像类型。
IronOCR 支持 125 种以上的国际语言。
Iron Tesseract 可以读取多种图像格式和 PDF 文件。标准的免费 Tesseract 引擎不具备这一功能。如果扫描质量较差,OCR 输入可以自动修复所需的属性。
OCRInput 类为 C# 程序员提供了对输入的细粒度控制。随后,开发人员将对图片输入进行预处理,以提高速度和准确性。这样,在进行 OCR 处理之前,就不需要使用 Photoshop 批量脚本或 ImageMagick 来准备照片了。
IronOCR 允许最终用户对图像的特定区域执行 OCR。
IronOCR 会为使用 Tesseract 3、4 或 5 扫描的每一页返回一个高级结果对象。其中包含位置数据、图像、文本、统计置信度、替代符号选择、字体名称、字体大小装饰、字体权重以及以下各项的位置:
IronOCR 允许开发人员在一个文档中使用多种语言。这一功能对 .NET 服务提供商极为有利。
在本文中,我们将使用一个新的 Visual Studio 控制台应用程序来演示 IronOCR 和 Syncfusion Essential PDF 的 OCR 处理功能。
打开 Visual Studio 软件,进入文件菜单,选择新建项目。然后选择控制台应用程序。
在相应的文本框中输入项目名称并选择路径。接下来,点击创建按钮,然后选择所需的 .NET 框架,如下图所示:
Visual Studio 项目现在将生成新控制台应用程序的结构。完成后将打开 program.cs 文件。
现在,我们将把这两个库添加到项目中。
可以通过四种方式下载和安装 IronOCR 库。它们是
1.使用 Visual Studio NuGet 软件包管理器
2.直接从 NuGet 网页下载。
3.从 IronOCR 网页直接下载。
4.使用 Visual Studio 命令行。
您可以使用 Visual Studio NuGet 包管理器将 IronOCR 集成到 C# 项目中。
点击 工具 > NuGet 包管理器 > 管理解决方案的 NuGet 包...,访问 NuGet 包管理器图形用户界面。
之后会出现一个新窗口。搜索 IronOCR 并将软件包安装到项目中。
还可以使用上述相同方法安装 IronOCR 的其他语言包。
可按照以下说明直接从 NuGet 网站下载 IronOCR:
1.导航至 IronPDF NuGet 图库页面
2.从右侧菜单中选择下载软件包选项。
3.双击下载的软件包。软件包将自动安装。
开发人员可以 下载 库,并将其添加为项目参考。
请按照以下说明在 Visual Studio 中将库添加为引用。
1.右键单击解决方案窗口中的项目。
2.然后,选择添加项目参考,并浏览下载参考的位置。
3.然后单击 "确定 "添加参考。
1.在 Visual Studio 中,转到 工具 > NuGet 包管理器 > 包管理器控制台
2.在软件包管理器控制台选项卡中输入以下一行:
3.安装软件包 IronOCR
现在,软件包将下载/安装到当前项目中,并可随时使用。
Syncfsion Essential PDF 可通过三种不同方式安装。
1.使用 Visual Studio NuGet 软件包管理器
2.直接从 NuGet 网页下载。
3.使用 Visual Studio 命令行。
与 IronOCR 一样,开发人员也可以使用 Visual Studio 的 NuGet 包管理器安装 SyncFusion 的 OCR 库。
像以前一样,点击工具 > NuGet 包管理器 > 管理解决方案的 NuGet 包...访问包管理器。
搜索 SyncFusion OCR 并安装相应软件包 (应是 Syncfusion.PDF.OCR.Net.Core
)
SyncFusion Essential PDF OCR 的其他语言包可从以下网址下载 GitHub.
Syncfusion Essential PDF OCR 可按照以下说明直接从 NuGet 网站下载:
1.导航到软件包的 NuGet 图库页面.
2.从右侧菜单中选择下载软件包选项。
3.双击下载的软件包。软件包将自动安装。
4.接下来,重新加载解决方案并开始在项目中使用。
1.在 Visual Studio 中,转到 工具 > NuGet 包管理器 > 包管理器控制台
2.在软件包管理器控制台选项卡中输入以下一行:
Install-Package Syncfusion.PDF.OCR.Net.Core -Version 20.2.0.38
现在,软件包将下载/安装到当前项目中,并可随时使用。
IronOCR 和 Syncfusion OCR 都能在 PDF 文档上执行 OCR。下面,我们将讨论如何在 Visual studio 中使用这两种软件。
只需几行代码,开发人员就能对整个 PDF 或 PDF 的特定页面/部分执行 OCR。请看下面的代码片段。
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("example.pdf", "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("example.pdf", "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
Input.AddPdf("example.pdf", "password")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
您可以使用 OCRProcessor 类对 PDF 文档和文档区域执行 OCR。请参考下面的代码示例。
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
//initialize the ocr processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
processor.Settings.Language = Languages.English;
processor.PerformOCR(lDoc, @"TessData\");
lDoc.Save("Sample.pdf");
lDoc.Close(true);
}
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
//initialize the ocr processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
processor.Settings.Language = Languages.English;
processor.PerformOCR(lDoc, @"TessData\");
lDoc.Save("Sample.pdf");
lDoc.Close(true);
}
Imports Syncfusion.OCRProcessor
Imports Syncfusion.Pdf.Graphics
Imports Syncfusion.Pdf.Parsing
'initialize the ocr processor
Using processor As New OCRProcessor("TesseractBinaries\")
Dim lDoc As New PdfLoadedDocument("Input.pdf")
processor.Settings.Language = Languages.English
processor.PerformOCR(lDoc, "TessData\")
lDoc.Save("Sample.pdf")
lDoc.Close(True)
End Using
这两个库都可以在 C#.NET 和 .NET Core 应用程序中对图像执行 OCR。
IronOCR 的独特之处在于,它只需两行代码就能自动检测和读取不完全扫描图像中的文本。
using IronOcr;
var Result = new IronTesseract().Read(@"images\11111.png").Text;
using IronOcr;
var Result = new IronTesseract().Read(@"images\11111.png").Text;
Imports IronOcr
Private Result = (New IronTesseract()).Read("images\11111.png").Text
OCR OUTPUT form IMAGE
OCR Output
Simple Data Outputs:
» NET Text Strings
» Barcode & QR Data & Images
Structured Data Outputs:
» Pages
» Blocks
» Paragraphs
» Lines
» words
» Characters
Export Documents:
» Searchable PDFs
» hOCR / HTML Export
» Images of any Page, Text
Element or Barcode
Syncfusion Essential PDF 能够非常准确地从图像中提取文本。
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
{
//loading the input image
Bitmap image = new Bitmap("11111.jpeg");
//Set OCR language to process
processor.Settings.Language = Languages.English;
//Process OCR by providing the bitmap image, data dictionary and language
string ocrText= processor.PerformOCR(image, @"TessData\");
}
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
{
//loading the input image
Bitmap image = new Bitmap("11111.jpeg");
//Set OCR language to process
processor.Settings.Language = Languages.English;
//Process OCR by providing the bitmap image, data dictionary and language
string ocrText= processor.PerformOCR(image, @"TessData\");
}
Using processor As New OCRProcessor("TesseractBinaries\")
Using Syncfusion.OCRProcessor
End Using
End Using
Using Syncfusion.Pdf.Graphics
Using Syncfusion.Pdf.Parsing
'loading the input image
Dim image As New Bitmap("11111.jpeg")
'Set OCR language to process
processor.Settings.Language = Languages.English
'Process OCR by providing the bitmap image, data dictionary and language
Dim ocrText As String= processor.PerformOCR(image, "TessData\")
End Using
End Using
控制台
OCR 输出表格 IMAGE
OCR 输出
简单数据输出:
Dee eT Nd
tC eke ass
Biren)
大豆
分段
或
eae
eed
TLC
eres
Smt d
见 amr'
etd ieot
## 8.许可证发放
使用 IronOCR 和 Syncfusion Essential PDF 都需要软件许可证。
### 8.1.IronOCR 许可
IronOCR 为个人非商业项目提供免费开发许可。
IronOCR 为商业许可证提供独特的价格结构。精简版套餐起价为"$liteLicense",没有额外费用。所有许可证均包括 30 天退款保证、一年的软件支持和升级、开发、测试、暂存、生产有效性以及永久许可证。 (一次性购买).了解有关 IronOCR 完整定价结构和许可信息的更多信息,请访问 [本页](/csharp/ocr/licensing/).
您只需一次性支付 1599 美元,即可获得 SaaS 和 OEM 产品的免版税再分发权。
<div class="content-img-align-center">
<img src="/static-assets/ocr/blog/syncfusion-ocr-alternatives/syncfusion-ocr-alternatives-12.webp" alt="IronOCR 与 SyncFusion Essential PDF OCR 的比较,图 12" class="img-responsive add-shadow" />
<p class="content__image-caption"></p>
</div>
### 8.2.Syncfusion Essential PDF 许可
Syncfusion Essential PDF 提供三种类型的开发人员许可证,但不提供 SaaS 和 OEM 服务。
- **社区许可证** 社区许可证对开发人员和最多 5 名开发人员的小型公司免费。它还包括实时支持。
- **零售许可证是按年计算的许可证,必须为组织中的每个开发人员单独购买。零售许可证的起价为每位开发人员每年 995 美元。
- **无限制许可证。** 该选项为整个组织提供相同的年度许可证,但价格较低。
查看 Syncfusion Essential PDF 的整个许可结构 (以及其他 Syncfusion 组件) 在 <a href="https://www.syncfusion.com/sales/products" target="_blank" rel="nofollow noopener noreferrer">产品许可页面</a>.
<div class="content-img-align-center">
<img src="/static-assets/ocr/blog/syncfusion-ocr-alternatives/syncfusion-ocr-alternatives-13.webp" alt="IronOCR 与 SyncFusion Essential PDF OCR 的比较,图 13" class="img-responsive add-shadow" />
<p class="content__image-caption"></p>
</div>
## 9.结论
IronOCR 总共支持约 125 种世界语言。其处理能力包括:对 PDF 文档或图像的部分内容执行 OCR 的能力、从 PDF 和照片中提取文本的能力以及纠正质量较差的图像的能力等等。IronOCR 将速度和准确性放在首位。其准确率高达 99.8%,高于市场上任何其他由 Tesseract 驱动的 OCR 库。IronOCR 开箱即用,无需进行性能调整或图像预处理。
Syncfusion Essential PDF OCR 还使用了谷歌开源的 tesseract 引擎。它可以对整个文档或文档的特定部分执行 OCR。Syncfusion 的 OCR 库支持 60 多种国际语言。
IronOCR 许可证终身有效,提供无限支持以及 SaaS 和 OEM 服务。另一方面,Syncfusion Essential PDF OCR 提供按年计算的许可证。IronOCR 的起价为"$liteLicense",而 Syncfusion 的起价为每年 995 美元。
购买完整的 IronOCR 和其他四款 Iron 软件产品,可享受折扣价。 [Iron Suite](/suite/).IronSuite 中捆绑的产品包括
1.IronPDF
2.IronOCR
3.铁XL
4.IronBarcode
5.IronWebscraper
钢铁软件 [许可页面](/csharp/ocr/licensing/) 包含有关上述五种产品定价和许可的更多详细信息。