OCR工具

OCR C# 开源 (开发者名单)

发布 2023年六月20日
分享:

OCR(光学字符识别)是一项改变游戏规则的技术,它彻底改变了扫描文档在当今数字世界中的使用方式。 它使计算机能够从各种来源(包括扫描的 PDF 文档)中识别和提取文本,让我们能够有效地编辑 PDF 文档并与之交互。 其中一个光学字符识别(光学字符识别)该程序是 Adobe Acrobat,可让您迅速从扫描文件中提取文本,并将其转换为可编辑的 PDF 和可搜索的图片 PDF。

开发人员可以利用 Tesseract 和 IronOCR 等 OCR 库,访问利用尖端算法和机器学习方法的强大工具和 API。 这些库可以实现准确的文本识别,使管理和检索以前扫描的文档和全新文档中的有用信息变得更加简单。 OCR 可实现无缝内容分析,帮助企业和个人最大限度地利用扫描文档和页面图像,从而提高工作效率。 OCR 是当前技术的重要工具,无论是用于纸质记录的数字化、从发票中提取数据,还是仅仅用于提高文档的可访问性。

Tesseract

最知名的开源 OCR 引擎名为 Tesseract,最初由惠普公司创建。 自 2006 年以来,Google 一直在支持这一免费软件项目,该项目采用 Apache 许可证发布。

Tesseract OCR 引擎是目前最准确的开源免费系统之一。Tesseract 基于 LSTM 的最新稳定版本 4.1.1 目前支持 116 种语言。

Tesseract 需要单独的图形用户界面支持(图形用户界面)在通过命令行界面运行时,因为它没有自己的内置界面。 它可以利用其神经网络学习新信息,并拥有先进的图像预处理管道。为您的 .NET 应用程序添加 OCR 功能的最有效技术是 Tesseract .NET SDK,它是提供文本识别功能的最佳解决方案之一。 尽管 Tesseract 无疑是目前市场上最好的 OCR 库。

GOCR

使用 GNU 公共许可证创建 OCR(光学字符识别)该项目称为 GOCR。 它可以将文本文件转换成扫描的文档图像。 Joerg Schulenburg 在启动该项目并管理 SF 上的开发团队后,继续负责该软件包的翻译工作。(非常)目前时间基数较低。

由于 GOCR 可与多个前端一起使用,因此将其移植到其他操作系统、网络应用程序和架构上相对简单。 它可以读取多种图片文件类型,在 2010 年之前,其质量一直在不断提高。

据 GOCR 称,它可以处理高度为 20-60 像素的单栏无衬线字体。 报告称,在处理用拉丁语以外的字母书写的文本、衬线字体、重叠字母、手写文本、各种字体、嘈杂的照片以及倾斜角度过大等方面存在困难。 GOCR 还能翻译条形码。

CuneiForm

CuneiForm 是一项免费的开源技术,现在也被称为 "Cognitive OpenOCR"。它有内置输出和数据库。 它涵盖 23 种不同的语言,还能执行文本格式扫描、文档布局分析和识别等任务。

Cognitive Technologies 为 OpenOCR 开发了免费软件和 BSD 许可。 虽然它支持跨平台使用,但不为 Linux 用户提供图形界面。

为了简化任何 Dot NET Framework 2.0 或更高版本应用程序中的字符识别工作,使用了封装库 Puma Dot NET。 它在处理数据时会进行词典检查,以提高识别质量。

CuneiForm 是一种技术,旨在自动或半自动地将纸质文档和图像文件的电子副本转换为可编辑的形式,而不影响文档的结构和原始字体。 该系统由两部分组成,分别用于批量处理电子文档和一次处理一份文档。此外,该系统还支持俄语和英语的组合。 只有 Andrei Borovsky 于 2009 年创建的分支支持对其他混合语言的识别。 让系统识别其他语言具有挑战性,因为每种语言都与一个数据文件相关联,而开发人员并未透露该文件的结构和创建过程。

克拉肯

开发 Kraken 的目的是在不影响 Ocropus 其他功能的情况下解决其存在的问题。 它使用了 CLSTM 神经网络库,并利用从以前项目中获得的宝贵经验和新鲜数据。 它需要使用某些外部库才能在不同平台上有效运行。 在存储信息的帮助下,它可以对潜在的数据验证问题做出更准确的预测。 此外,其工作方法有助于轻松部署和培训新模型。

A9T9

A9T9 是一款免费的 OCR 软件,可用于从图片文件中提取文本以及转换图像和 PDF 文档。 它提供了一个图形用户界面(图形用户界面)Tesseract OCR 引擎。

该程序易于设置。最重要的是,它是完全免费和开源的。 它没有间谍软件和广告软件。

您可以打开 PDF 文件或图像,源文件的内容将显示在左侧窗口中。 如果您的文档有多个页面或为多页文档,您可以使用页面底部的箭头在页面之间导航。

要启动 OCR 流程,只需单击绿色的 OCR 按钮,输出结果就会出现在右侧第二个窗格中。 您可以选择将输出文本保存为文本文件和 Word 文档。

IronOCR

与标准的 Tesseract 库相比,IronOCR 扩展了 Tesseract,并提供了一个具有更高精度、更佳性能和更强稳定性的本地 C# OCR 库。 IronOCR 可用于 .NET 程序和网站,从 PDF 和图像中提取文本。 它支持多种外语,可以生成纯文本或结构化数据输出。 它能够扫描内嵌文本的 BarCode 和图像。 该库可用于为控制台、网络、MVC 和桌面开发的 .NET 应用程序。开发团队可直接协助商业部署的 License 流程。 IronOCR 兼容 Visual Studio 的最新版本。

IronOCR 的优势

  • IronOCR 使用最新的 Tesseract 5 引擎,能够从各种图片或 PDF 文件中读取纸质文档、条形码和 QR 码。 该软件包简化了将 OCR 纳入桌面、控制台和网络应用程序的过程。
  • IronOCR 使我们能够执行 OCR,从而将扫描的 PDF 转换为可搜索的 PDF。
  • 除单词表和自定义语言外,IronOCR 还支持全球 127 种不同语言。
  • IronOCR 可以扫描 20 多种不同类型的条形码和 QR 码。
  • IronOCR 可以提供纯文本以及 BarCode 数据的输出。 开发人员可以使用另一种结构化数据对象范式检索所有内容,以便直接输入系统。 这包括网络应用程序中结构化的标题、段落、行、单词和字符。

    下面是我们将用来识别给定图像中的文本内容并将其转换为文本的示例代码。

var Ocr = new IronTesseract();   
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var Input = new OcrInput())      
{          
    Input.AddImage(@"Demo.png");         
    var R = Ocr.Read(Input);       
    Console.WriteLine(R.Text);        
    Console.ReadKey();          
}
var Ocr = new IronTesseract();   
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var Input = new OcrInput())      
{          
    Input.AddImage(@"Demo.png");         
    var R = Ocr.Read(Input);       
    Console.WriteLine(R.Text);        
    Console.ReadKey();          
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.EnglishBest
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5
Using Input = New OcrInput()
	Input.AddImage("Demo.png")
	Dim R = Ocr.Read(Input)
	Console.WriteLine(R.Text)
	Console.ReadKey()
End Using
VB   C#

在上面的代码片段中,我们正在使用 "IronTesseract "开发一个功能。 首先,我们实例化一个新的 OcrInput 对象,以便添加一个或多个图像文件。 在使用 OcrInput 对象的 Add 方法时,我们可能需要在代码中指定图片的路径。 您可以根据需要添加图片。 通过解析图像文档并将结果提取到 OCR 结果中,我们可以利用之前创建的对象上的 "Read "功能来访问图像。 它具有从图像中提取文本并将其转换为字符串的功能。

下面的输出显示了从之前提供的图片中提取的文本,表明文本已成功从图片中提取出来。

OCR C# 开放源代码(面向开发人员的列表) 图 1 - 输出

See this邮寄以获得全面的 IronOCR 指导。

结论

OCR 开源工具允许我们使用其源代码构建自己的程序。 然而,有些工具没有官方库或专门团队来提供编码问题支持。 Tesseract 的文档还缺乏常见使用场景的示例代码或教程,这对初学者理解代码和库具有挑战性。

IronOCR 支持各种 .NET 项目,如 .NET Framework Standard 2、.NET Framework 4.5 和 .NET Core 2、3 和 5。它还能与 Mono、Xamarin 和 Azure 等较新的技术配合使用。 通过利用 IronOCR 技术,我们可以增强 Tesseract 的效果,纠正不准确的扫描文件或图像。 复杂的 Tesseract 词典系统通过 NuGet 软件包进行管理。 我们利用 Iron OCR 库来开发 OCR 工具。

有了 IronOCR,我们无需任何额外配置即可使用该程序,它支持 PDF 文件、多帧 TIFF 和所有常见的图像格式。 它还提供条形码识别功能,使我们能够提取条形码数据并从图像中读取条形码值。 IronOCR 提供高性价比的开发版,可免费试用,终身许可证包含在 IronOCR 捆绑软件中,无需额外费用。IronOCR 捆绑软件只需一次付款即可覆盖多个平台。 有关 IronOCR 定价的更多信息,请参阅此页页码.

< 前一页
适用于日本语的最佳OCR(为开发者更新的列表)
下一步 >
如何使用Tesseract从图像中获取文本

准备开始了吗? 版本: 2024.11 刚刚发布

免费NuGet下载 总下载量: 2,698,613 查看许可证 >