与其他组件比较

IronOCR与Syncfusion OCR的比较

发布 2022年十一月14日
分享:

本文将比较两个使用光学字符识别技术的软件库(光学字符识别)从图像和扫描文件中自动检测和提取印刷或手写文本。 首先,我们将讨论这两个库的功能。 接下来,我们将通过使用这两个库生成的示例源代码来检验和比较它们的文本识别和提取能力。 最后,我们将对这些库的许可和定价进行比较。

本文将比较的库有

  • IronOCR
  • Syncfusion Essential PDF

1.Syncfusion OCR

Syncfusion 的 Essential PDF 库集成了 OCR 功能,可对 PDF 文档中的扫描图像进行图像文本处理。

Syncfusion 的 OCR 处理器可与 Tesseract 3 版本配合使用。(3.02 和 3.05)和 4.该库可包含在 .NET Core 和 ASP.NET 应用程序中。

*SyncFusion Essential PDF 的 OCR 功能特点包括:

  • **在 PDF 文档上执行 OCR 任务。 OCRProcessor 类可用于对 PDF 文件执行 OCR。 它基于 Tesseract 数据处理器,众所周知,该处理器是世界上最好的 OCR 处理器之一。
  • 对 PDF 文档的部分内容执行 OCR 任务 用户可以对 PDF 文档的特定页面或区域进行 OCR。
  • 在图像上执行 OCR 任务 用户可以从图像中提取文本数据,以便导入其他应用程序。
  • 多语言支持 谷歌魔方引擎(同步融合的扩展)目前,".NET "支持 60 多种语言,并正在尝试更多语言。
  • 良好的准确性 通过利用谷歌的 Tesseract 开源引擎,Syncfusion Essential PDF 实现了非常高的文本准确性,可在合理的时间内执行 OCR。

2.IronOCR

IronOCR 是一个 C# 软件库,允许 .NET 平台开发人员从图片和 PDF 文档中识别和读取文本。 这是一个仅适用于 .NET 的 OCR 库,使用功能强大的 Tesseract 引擎。Tesseract 3 - 5 版本开箱即可在 Windows、macOS、Linux、Azure、AWS、Lambda、Mono 和 Xamarin Mac 上运行。

IronOCR 比现有的所有 OCR 引擎覆盖更多的语言,支持 125 种语言、(默认只安装英文版).

.NET开发人员可以完全控制他们的文档,可以根据自己的需要进行修改。

2.1.IronOCR 的功能

IronOCR 在集成、签名、导出、读取视觉效果以及从照片中提取细节方面提供了独特的能力和功能组合,与用户的技术背景或硬件复杂程度无关。

2.1.1.准确性

IronOCR SDK 在准确率方面完胜其他 OCR 库,准确率高达 99.8%。

2.1.2.修复低质量扫描和图像

IronOCR 类为 C# 开发人员提供了广泛的控制功能。 他们为开发人员提供 OCR(图像和 PDF 转换为文本)在每一个具体实例中,译文都要对其功能和性能进行微调。

IronOCR 包括一些配置选项,使库能够处理质量不理想的图像。 其中一些可用的配置包括清除背景噪音、增强对比度、增强分辨率、语言、策略、旋转和拉直、色彩空间、检测深色背景上的白色文本以及输入图像类型。

2.1.3.语言

IronOCR 支持 125 种以上的国际语言。

2.1.4.OCR 文本提取

Iron Tesseract 可读取多种图像格式以及 PDF 文件。 标准、免费的 Tesseract 引擎不提供此功能。 如果扫描质量较差,OCR 输入可以自动修复所需的属性。

2.1.5.图像优化过滤器

OCRInput 类为 C# 程序员提供了对输入的细粒度控制。 图片输入随后由开发人员进行预处理,以提高速度和准确性。 这样就无需使用 Photoshop 批量脚本或 ImageMagick 在进行 OCR 处理之前对照片进行准备。

2.1.6.图像的 OCR 区域

IronOCR 允许其最终用户对图像的特定区域执行 OCR。

2.1.7.OCRResult 类

IronOCR 使用 Tesseract 3、4 或 5 扫描的每个页面都会返回一个高级结果对象。其中包含位置数据、图像、文本、统计置信度、替代符号选择、字体名称、字体大小装饰、字体权重以及以下各项的位置:

  • 页面
  • 段落
  • 文本行数
  • 单词
  • 单个字符
  • 条形码

2.1.8.在一份文档中使用多种语言

IronOCR 允许开发人员在一份文档中使用多种语言。 这种能力对 .NET 服务提供商极为有利。

3.在 Visual Studio 中启动新项目

在本文中,我们将使用一个新的 Visual Studio 控制台应用程序来演示 IronOCR 和 Syncfusion Essential PDF 的 OCR 处理功能。

打开 Visual Studio 软件,进入文件菜单,选择 新建项目。 然后,选择 控制台应用程序

在相应文本框中输入项目名称并选择路径。 接下来,点击创建按钮,然后选择所需的 .NET Framework,如下图所示:

IronOCR 与 SyncFusion Essential PDF OCR 的比较,图 1

Visual Studio 项目现在将生成新控制台应用程序的结构。 完成后将打开 program.cs 文件。

IronOCR 与 SyncFusion Essential PDF OCR 的比较,图 2

现在,我们将把这两个库添加到项目中。

4.安装 IronOCR 库

IronOCR 库可以通过四种方式下载和安装。 它们是

  1. 使用 Visual Studio NuGet 软件包管理器

  2. 直接从 NuGet 网页下载。

  3. 直接从 IronOCR 网页下载。

  4. 使用Visual Studio命令行。

4.1.使用 Visual Studio NuGet 管理器

您可以使用 Visual Studio NuGet 包管理器将 IronOCR 集成到 C# 项目中。

点击 工具 > NuGet 包管理器 > 管理解决方案的 NuGet 包...,访问 NuGet 包管理器图形用户界面。

IronOCR 与 SyncFusion Essential PDF OCR 的比较,图 3

之后,将出现一个新窗口。 搜索 IronOCR 并将软件包安装到项目中。

IronOCR 与 SyncFusion Essential PDF OCR 的比较,图 4

还可以使用上述相同方法安装 IronOCR 的其他语言包。

4.2.从 NuGet 网页直接下载

IronOCR 可按照以下说明直接从 NuGet 网站下载:

  1. 导航至 IronPDF NuGet 图库页面

  2. 从右侧菜单中选择下载软件包选项。

  3. 双击下载的软件包。 它将自动安装。

4.3.从 IronOCR 网页直接下载

开发人员可以下载您可以从 IronOCR 网站下载该库,并将其添加为项目参考资料。

请按照以下说明在 Visual Studio 中将该库添加为参考资料。

  1. 右键单击解决方案窗口中的项目。

  2. 然后,选择添加项目参考资料并浏览下载参考资料的位置。

  3. 然后,单击 "确定 "添加引用。

4.4.使用 Visual Studio 命令行

  1. 在 Visual Studio 中,转到 工具 > NuGet 包管理器 > 包管理器控制台

  2. 在软件包管理器控制台选项卡中输入以下一行:

  3. 安装-打包 IronOCR
    IronOCR 与 SyncFusion Essential PDF OCR 的比较,图 5

    现在,软件包将下载/安装到当前项目中,并可随时使用。

    IronOCR 与 SyncFusion Essential PDF OCR 的比较,图 6

5.安装 Syncfusion Essential PDF OCR 库

Syncfsion Essential PDF 可通过三种不同方式安装。

  1. 使用 Visual Studio NuGet 软件包管理器

  2. 直接从 NuGet 网页下载。

  3. 使用Visual Studio命令行。

5.1.使用 Visual Studio NuGet 管理器

与 IronOCR 一样,开发人员也可以使用 Visual Studio 的 NuGet 包管理器安装 SyncFusion 的 OCR 库。

像以前一样访问软件包管理器,点击 工具 > NuGet 软件包管理器 > 管理解决方案的 NuGet 软件包...

IronOCR 与 SyncFusion Essential PDF OCR 的比较,图 7

搜索 SyncFusion OCR 并安装相应软件包(应是 Syncfusion.PDF.OCR.Net.Core)

IronOCR 与 SyncFusion Essential PDF OCR 的比较,图 8

SyncFusion Essential PDF OCR 的其他语言包可从以下网址下载 GitHub.

5.2.从 NuGet 网页直接下载

Syncfusion Essential PDF OCR 可按照以下说明直接从 NuGet 网站下载:

  1. 导航至软件包的 NuGet 图库页面.

  2. 从右侧菜单中选择下载软件包选项。

  3. 双击下载的软件包。 它将自动安装。

  4. 接下来,重新加载解决方案并开始在项目中使用。

5.3.使用 Visual Studio 命令行

  1. 在 Visual Studio 中,转到工具 > NuGet 包管理器 > 包管理器控制台

  2. 在软件包管理器控制台选项卡中输入以下一行:
Install-Package Syncfusion.PDF.OCR.Net.Core -Version 20.2.0.38
IronOCR 与 SyncFusion Essential PDF OCR 的比较,图 9

现在,软件包将下载/安装到当前项目中,并可随时使用。

6.在 PDF 文档上执行 OCR

IronOCR 和 Syncfusion OCR 都能对 PDF 文档执行 OCR。 在此,我们将讨论如何在 Visual studio 中使用这两种工具。

6.1.使用 IronOCR 提取 PDF OCR 文本

只需几行代码,开发人员就可以对整个 PDF 或 PDF 的特定页面/部分执行 OCR。 请看下面的代码片段。

using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("example.pdf", "password");
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("example.pdf", "password");
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddPdf("example.pdf", "password")
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

6.2.使用 Syncfusion Essential PDF OCR 提取 PDF OCR 文本

您可以使用 OCRProcessor 类对 PDF 文档和文档区域执行 OCR。 请查看下面的代码示例以了解上下文。

using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
//initialize the ocr processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
processor.Settings.Language = Languages.English;
processor.PerformOCR(lDoc, @"TessData\");
lDoc.Save("Sample.pdf");
lDoc.Close(true);
}
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
//initialize the ocr processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
processor.Settings.Language = Languages.English;
processor.PerformOCR(lDoc, @"TessData\");
lDoc.Save("Sample.pdf");
lDoc.Close(true);
}
Imports Syncfusion.OCRProcessor
Imports Syncfusion.Pdf.Graphics
Imports Syncfusion.Pdf.Parsing
'initialize the ocr processor
Using processor As New OCRProcessor("TesseractBinaries\")
Dim lDoc As New PdfLoadedDocument("Input.pdf")
processor.Settings.Language = Languages.English
processor.PerformOCR(lDoc, "TessData\")
lDoc.Save("Sample.pdf")
lDoc.Close(True)
End Using
VB   C#

7.在图像上执行 OCR

这两个库都可以在 C#.NET 和 .NET Core 应用程序中对图像执行 OCR。

7.1.使用 IronOCR 对图像进行 OCR 识别

IronOCR 的独特之处在于,它只需两行代码就能自动检测和读取不完全扫描图像中的文本。

using IronOcr;
var Result = new IronTesseract().Read(@"images\11111.png").Text;
using IronOcr;
var Result = new IronTesseract().Read(@"images\11111.png").Text;
Imports IronOcr
Private Result = (New IronTesseract()).Read("images\11111.png").Text
VB   C#

OCR 输入图像

IronOCR 与 SyncFusion Essential PDF OCR 的比较,图 10

OCR OUTPUT form IMAGE
OCR Output
Simple Data Outputs:
» NET Text Strings
» Barcode & QR Data & Images
Structured Data Outputs:
» Pages
» Blocks
» Paragraphs
» Lines
» words
» Characters
Export Documents:
» Searchable PDFs
» hOCR / HTML Export
» Images of any Page, Text
Element or Barcode

7.2.使用 Syncfusion Essential PDF OCR 处理器对图像进行 OCR 处理

Syncfusion Essential PDF 能够非常准确地从图像中提取文本。

using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
{
//loading the input image
Bitmap image = new Bitmap("11111.jpeg");
//Set OCR language to process
processor.Settings.Language = Languages.English;
//Process OCR by providing the bitmap image, data dictionary and language
string ocrText= processor.PerformOCR(image, @"TessData\");
}
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
{
//loading the input image
Bitmap image = new Bitmap("11111.jpeg");
//Set OCR language to process
processor.Settings.Language = Languages.English;
//Process OCR by providing the bitmap image, data dictionary and language
string ocrText= processor.PerformOCR(image, @"TessData\");
}
Using processor As New OCRProcessor("TesseractBinaries\")
Using Syncfusion.OCRProcessor
End Using
End Using
Using Syncfusion.Pdf.Graphics
	Using Syncfusion.Pdf.Parsing
	'loading the input image
	Dim image As New Bitmap("11111.jpeg")
	'Set OCR language to process
	processor.Settings.Language = Languages.English
	'Process OCR by providing the bitmap image, data dictionary and language
	Dim ocrText As String= processor.PerformOCR(image, "TessData\")
	End Using
End Using
VB   C#

OCR 输入图像

IronOCR 与 SyncFusion Essential PDF OCR 的比较,图 11

控制台

OCR 输出形式 图像

OCR 输出

简单数据输出:

  • .NET文本字符串

    Dee eT Nd

    tC eke ass

    比仁)

    大豆

    分段

    eae

    eed

    TLC

    用户

    Smt d

    参见 amr'

    etd ieot

8.许可

使用 IronOCR 和 Syncfusion Essential PDF 都需要软件许可证。

8.1.IronOCR 许可

IronOCR 为个人、非商业项目提供免费开发许可。

IronOCR 为商业许可证提供独特的价格结构。 Lite 软件包起价为 $749,没有额外费用。 所有许可证均包括 30 天退款保证、一年的软件支持和升级、开发、测试、暂存、生产有效性以及永久许可证。(一次性购买). 了解有关 IronOCR 完整定价结构和许可信息的更多信息,请访问本页.

您只需一次性支付 1599 美元,即可获得 SaaS 和 OEM 商品的免版税再分发权。

IronOCR 与 SyncFusion Essential PDF OCR 的比较,图 12

8.2.Syncfusion Essential PDF 许可

Syncfusion Essential PDF 提供三种类型的开发人员许可证,但不包括 SaaS 和 OEM。

  • 社区许可证 社区许可证对开发人员和最多 5 名开发人员的小型公司免费。 翻译还包括实时支持。
  • **零售许可证是一种按年计算的许可证,必须为组织中的每个开发人员单独购买。 零售许可证起价为每位开发人员每年 995 美元。
  • Unlimited License. 此选项为整个组织提供相同的年度许可证,但价格较低。

    查看 Syncfusion Essential PDF 的整个许可结构(以及其他 Syncfusion 组件) 在 产品许可页面.

    IronOCR 与 SyncFusion Essential PDF OCR 的比较,图 13

9.结论

IronOCR 共支持全球约 125 种语言。 其处理能力包括:对 PDF 文档或图像的部分内容执行 OCR 的能力、从 PDF 和照片中提取文本的能力以及纠正质量较差的图像的能力等等。 IronOCR 优先考虑速度和准确性。 其准确率高达 99.8%,高于市场上任何其他由 Tesseract 驱动的 OCR 库。 IronOCR 开箱即用,无需进行性能调整或图像预处理。

Syncfusion Essential PDF OCR 还使用了谷歌开源的 tesseract 引擎。它可以对整个文档或文档的特定部分执行 OCR。 Syncfusion 的 OCR 库支持 60 多种国际语言。

IronOCR License 终身有效,提供无限支持以及 SaaS 和 OEM 服务。 另一方面,Syncfusion Essential PDF OCR 提供按年付费的许可。 IronOCR 起价为 $749,Syncfusion 起价为每年 995 美元。

购买全套 IronOcr 和其他四种 Iron Software 产品,可以优惠价获得 IronOCR 和其他四种 Iron Software 产品。Iron Suite. IronSuite 中捆绑的产品包括

  1. IronPDF

    2.IronOCR

    3.IronXL

    4.IronBarcode

    5.IronWebscraper

    Iron Software许可页面包含有关上述五种产品定价和许可的更多详细信息。

< 前一页
IronOCR和Aspose.OCR的比较
下一步 >
IronOCR与AWS Textract OCR的比较

准备开始了吗? 版本: 2024.11 刚刚发布

免费NuGet下载 总下载量: 2,698,613 查看许可证 >