在实际环境中测试
在生产中测试无水印。
随时随地为您服务。
本文将比较两个使用光学字符识别技术的软件库(光学字符识别)从图像和扫描文件中自动检测和提取印刷或手写文本。 首先,我们将讨论这两个库的功能。 接下来,我们将通过使用这两个库生成的示例源代码来检验和比较它们的文本识别和提取能力。 最后,我们将对这些库的许可和定价进行比较。
本文将比较的库有
Syncfusion 的 Essential PDF 库集成了 OCR 功能,可对 PDF 文档中的扫描图像进行图像文本处理。
Syncfusion 的 OCR 处理器可与 Tesseract 3 版本配合使用。(3.02 和 3.05)和 4.该库可包含在 .NET Core 和 ASP.NET 应用程序中。
*SyncFusion Essential PDF 的 OCR 功能特点包括:
OCRProcessor
类可用于对 PDF 文件执行 OCR。 它基于 Tesseract 数据处理器,众所周知,该处理器是世界上最好的 OCR 处理器之一。IronOCR 是一个 C# 软件库,允许 .NET 平台开发人员从图片和 PDF 文档中识别和读取文本。 这是一个仅适用于 .NET 的 OCR 库,使用功能强大的 Tesseract 引擎。Tesseract 3 - 5 版本开箱即可在 Windows、macOS、Linux、Azure、AWS、Lambda、Mono 和 Xamarin Mac 上运行。
IronOCR 比现有的所有 OCR 引擎覆盖更多的语言,支持 125 种语言、(默认只安装英文版).
.NET开发人员可以完全控制他们的文档,可以根据自己的需要进行修改。
IronOCR 在集成、签名、导出、读取视觉效果以及从照片中提取细节方面提供了独特的能力和功能组合,与用户的技术背景或硬件复杂程度无关。
IronOCR SDK 在准确率方面完胜其他 OCR 库,准确率高达 99.8%。
IronOCR 类为 C# 开发人员提供了广泛的控制功能。 他们为开发人员提供 OCR(图像和 PDF 转换为文本)在每一个具体实例中,译文都要对其功能和性能进行微调。
IronOCR 包括一些配置选项,使库能够处理质量不理想的图像。 其中一些可用的配置包括清除背景噪音、增强对比度、增强分辨率、语言、策略、旋转和拉直、色彩空间、检测深色背景上的白色文本以及输入图像类型。
IronOCR 支持 125 种以上的国际语言。
Iron Tesseract 可读取多种图像格式以及 PDF 文件。 标准、免费的 Tesseract 引擎不提供此功能。 如果扫描质量较差,OCR 输入可以自动修复所需的属性。
OCRInput 类为 C# 程序员提供了对输入的细粒度控制。 图片输入随后由开发人员进行预处理,以提高速度和准确性。 这样就无需使用 Photoshop 批量脚本或 ImageMagick 在进行 OCR 处理之前对照片进行准备。
IronOCR 允许其最终用户对图像的特定区域执行 OCR。
IronOCR 使用 Tesseract 3、4 或 5 扫描的每个页面都会返回一个高级结果对象。其中包含位置数据、图像、文本、统计置信度、替代符号选择、字体名称、字体大小装饰、字体权重以及以下各项的位置:
IronOCR 允许开发人员在一份文档中使用多种语言。 这种能力对 .NET 服务提供商极为有利。
在本文中,我们将使用一个新的 Visual Studio 控制台应用程序来演示 IronOCR 和 Syncfusion Essential PDF 的 OCR 处理功能。
打开 Visual Studio 软件,进入文件菜单,选择 新建项目。 然后,选择 控制台应用程序。
在相应文本框中输入项目名称并选择路径。 接下来,点击创建按钮,然后选择所需的 .NET Framework,如下图所示:
Visual Studio 项目现在将生成新控制台应用程序的结构。 完成后将打开 program.cs 文件。
现在,我们将把这两个库添加到项目中。
IronOCR 库可以通过四种方式下载和安装。 它们是
使用 Visual Studio NuGet 软件包管理器
直接从 NuGet 网页下载。
直接从 IronOCR 网页下载。
您可以使用 Visual Studio NuGet 包管理器将 IronOCR 集成到 C# 项目中。
点击 工具 > NuGet 包管理器 > 管理解决方案的 NuGet 包...,访问 NuGet 包管理器图形用户界面。
之后,将出现一个新窗口。 搜索 IronOCR 并将软件包安装到项目中。
还可以使用上述相同方法安装 IronOCR 的其他语言包。
IronOCR 可按照以下说明直接从 NuGet 网站下载:
从右侧菜单中选择下载软件包选项。
开发人员可以下载您可以从 IronOCR 网站下载该库,并将其添加为项目参考资料。
请按照以下说明在 Visual Studio 中将该库添加为参考资料。
右键单击解决方案窗口中的项目。
然后,选择添加项目参考资料并浏览下载参考资料的位置。
在 Visual Studio 中,转到 工具 > NuGet 包管理器 > 包管理器控制台
在软件包管理器控制台选项卡中输入以下一行:
现在,软件包将下载/安装到当前项目中,并可随时使用。
Syncfsion Essential PDF 可通过三种不同方式安装。
使用 Visual Studio NuGet 软件包管理器
直接从 NuGet 网页下载。
与 IronOCR 一样,开发人员也可以使用 Visual Studio 的 NuGet 包管理器安装 SyncFusion 的 OCR 库。
像以前一样访问软件包管理器,点击 工具 > NuGet 软件包管理器 > 管理解决方案的 NuGet 软件包...。
搜索 SyncFusion OCR 并安装相应软件包(应是 Syncfusion.PDF.OCR.Net.Core
)
SyncFusion Essential PDF OCR 的其他语言包可从以下网址下载 GitHub.
Syncfusion Essential PDF OCR 可按照以下说明直接从 NuGet 网站下载:
导航至软件包的 NuGet 图库页面.
从右侧菜单中选择下载软件包选项。
双击下载的软件包。 它将自动安装。
在 Visual Studio 中,转到工具 > NuGet 包管理器 > 包管理器控制台
Install-Package Syncfusion.PDF.OCR.Net.Core -Version 20.2.0.38
现在,软件包将下载/安装到当前项目中,并可随时使用。
IronOCR 和 Syncfusion OCR 都能对 PDF 文档执行 OCR。 在此,我们将讨论如何在 Visual studio 中使用这两种工具。
只需几行代码,开发人员就可以对整个 PDF 或 PDF 的特定页面/部分执行 OCR。 请看下面的代码片段。
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("example.pdf", "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("example.pdf", "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
Input.AddPdf("example.pdf", "password")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
您可以使用 OCRProcessor 类对 PDF 文档和文档区域执行 OCR。 请查看下面的代码示例以了解上下文。
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
//initialize the ocr processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
processor.Settings.Language = Languages.English;
processor.PerformOCR(lDoc, @"TessData\");
lDoc.Save("Sample.pdf");
lDoc.Close(true);
}
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
//initialize the ocr processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
processor.Settings.Language = Languages.English;
processor.PerformOCR(lDoc, @"TessData\");
lDoc.Save("Sample.pdf");
lDoc.Close(true);
}
Imports Syncfusion.OCRProcessor
Imports Syncfusion.Pdf.Graphics
Imports Syncfusion.Pdf.Parsing
'initialize the ocr processor
Using processor As New OCRProcessor("TesseractBinaries\")
Dim lDoc As New PdfLoadedDocument("Input.pdf")
processor.Settings.Language = Languages.English
processor.PerformOCR(lDoc, "TessData\")
lDoc.Save("Sample.pdf")
lDoc.Close(True)
End Using
这两个库都可以在 C#.NET 和 .NET Core 应用程序中对图像执行 OCR。
IronOCR 的独特之处在于,它只需两行代码就能自动检测和读取不完全扫描图像中的文本。
using IronOcr;
var Result = new IronTesseract().Read(@"images\11111.png").Text;
using IronOcr;
var Result = new IronTesseract().Read(@"images\11111.png").Text;
Imports IronOcr
Private Result = (New IronTesseract()).Read("images\11111.png").Text
OCR OUTPUT form IMAGE
OCR Output
Simple Data Outputs:
» NET Text Strings
» Barcode & QR Data & Images
Structured Data Outputs:
» Pages
» Blocks
» Paragraphs
» Lines
» words
» Characters
Export Documents:
» Searchable PDFs
» hOCR / HTML Export
» Images of any Page, Text
Element or Barcode
Syncfusion Essential PDF 能够非常准确地从图像中提取文本。
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
{
//loading the input image
Bitmap image = new Bitmap("11111.jpeg");
//Set OCR language to process
processor.Settings.Language = Languages.English;
//Process OCR by providing the bitmap image, data dictionary and language
string ocrText= processor.PerformOCR(image, @"TessData\");
}
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
{
//loading the input image
Bitmap image = new Bitmap("11111.jpeg");
//Set OCR language to process
processor.Settings.Language = Languages.English;
//Process OCR by providing the bitmap image, data dictionary and language
string ocrText= processor.PerformOCR(image, @"TessData\");
}
Using processor As New OCRProcessor("TesseractBinaries\")
Using Syncfusion.OCRProcessor
End Using
End Using
Using Syncfusion.Pdf.Graphics
Using Syncfusion.Pdf.Parsing
'loading the input image
Dim image As New Bitmap("11111.jpeg")
'Set OCR language to process
processor.Settings.Language = Languages.English
'Process OCR by providing the bitmap image, data dictionary and language
Dim ocrText As String= processor.PerformOCR(image, "TessData\")
End Using
End Using
控制台
OCR 输出形式 图像
OCR 输出
简单数据输出:
.NET文本字符串
Dee eT Nd
tC eke ass
比仁)
大豆
分段
或
eae
eed
TLC
用户
Smt d
参见 amr'
etd ieot
使用 IronOCR 和 Syncfusion Essential PDF 都需要软件许可证。
IronOCR 为个人、非商业项目提供免费开发许可。
IronOCR 为商业许可证提供独特的价格结构。 Lite 软件包起价为 $749,没有额外费用。 所有许可证均包括 30 天退款保证、一年的软件支持和升级、开发、测试、暂存、生产有效性以及永久许可证。(一次性购买). 了解有关 IronOCR 完整定价结构和许可信息的更多信息,请访问本页.
您只需一次性支付 1599 美元,即可获得 SaaS 和 OEM 商品的免版税再分发权。
Syncfusion Essential PDF 提供三种类型的开发人员许可证,但不包括 SaaS 和 OEM。
Unlimited License. 此选项为整个组织提供相同的年度许可证,但价格较低。
查看 Syncfusion Essential PDF 的整个许可结构(以及其他 Syncfusion 组件) 在 产品许可页面.
IronOCR 共支持全球约 125 种语言。 其处理能力包括:对 PDF 文档或图像的部分内容执行 OCR 的能力、从 PDF 和照片中提取文本的能力以及纠正质量较差的图像的能力等等。 IronOCR 优先考虑速度和准确性。 其准确率高达 99.8%,高于市场上任何其他由 Tesseract 驱动的 OCR 库。 IronOCR 开箱即用,无需进行性能调整或图像预处理。
Syncfusion Essential PDF OCR 还使用了谷歌开源的 tesseract 引擎。它可以对整个文档或文档的特定部分执行 OCR。 Syncfusion 的 OCR 库支持 60 多种国际语言。
IronOCR License 终身有效,提供无限支持以及 SaaS 和 OEM 服务。 另一方面,Syncfusion Essential PDF OCR 提供按年付费的许可。 IronOCR 起价为 $749,Syncfusion 起价为每年 995 美元。
购买全套 IronOcr 和其他四种 Iron Software 产品,可以优惠价获得 IronOCR 和其他四种 Iron Software 产品。Iron Suite. IronSuite 中捆绑的产品包括
IronPDF
2.IronOCR
3.IronXL
4.IronBarcode
5.IronWebscraper
Iron Software许可页面包含有关上述五种产品定价和许可的更多详细信息。