OCR工具

OCR C# 开源 (开发者名单)

发布 2023年六月20日
分享:

OCR (光学字符识别) 是一项改变游戏规则的技术,它彻底改变了扫描文档在当今数字世界中的使用方式。它使计算机能够从各种来源(包括扫描的 PDF 文档)中识别和提取文本,让我们能够有效地编辑 PDF 文档并与之交互。光学字符识别技术之一 (光学字符识别) 您可以使用 Adobe Acrobat 快速提取扫描文件中的文本,并将其转换为可编辑的 PDF 和可搜索的图片 PDF。

开发人员可以利用 Tesseract 和 IronOCR 等 OCR 库,访问使用尖端算法和机器学习方法的强大工具和 API。这些库可以实现准确的文本识别,使管理和检索以前扫描的文档和全新文档中的有用信息变得更加简单。OCR 可实现无缝内容分析,帮助企业和个人最大限度地利用扫描文档和页面图像,从而提高工作效率。无论是将纸质记录数字化、从发票中提取数据,还是仅仅提高文档的可访问性,OCR 都是当前技术中的重要工具。

宇宙魔方

最知名的开源 OCR 引擎名为 Tesseract,最初由惠普公司创建。自 2006 年以来,谷歌一直在支持这一免费软件项目,该项目以 Apache 许可证发布。

Tesseract OCR 引擎是目前最准确的开源免费系统之一。Tesseract 基于 LSTM 的最新稳定版本 4.1.1 目前支持 116 种语言。

Tesseract 需要单独的图形用户界面支持 (图形用户界面) 因为它没有自己的内置界面。它可以使用神经网络学习新信息,并拥有先进的图像预处理管道。将 OCR 功能添加到.NET 应用程序的最有效技术是 Tesseract .NET SDK,它是提供文本识别功能的最佳解决方案之一。尽管 Tesseract 无疑是目前市场上最好的 OCR 库。

GOCR

使用 GNU 公共许可证创建 OCR (光学字符识别) 被称为 GOCR 的程序。它能将文本文件转换成扫描后的文档图像。在启动该程序并管理 SF 的开发团队后,Joerg Schulenburg 继续负责处理该程序包,他的工作范围包括 (非常) 今天的低时基。

由于 GOCR 可与多个前端一起使用,因此将其移植到其他操作系统、网络应用程序和架构上相对简单。它可以读取多种图片文件类型,而且直到 2010 年,其质量一直在不断提高。

据 GOCR 称,它可以处理高度为 20-60 像素的单列无衬线字体。但它在处理非拉丁字母、衬线字体、重叠字母、手写文本、各种字体、嘈杂照片和倾斜角度过大的文本时会遇到困难。GOCR 还能翻译条形码。

CuneiForm

CuneiForm 是一项免费开源技术,现在也被称为 "Cognitive OpenOCR"。它有内置输出和数据库。它涵盖 23 种不同的语言,还能执行文本格式扫描、文档布局分析和识别等任务。

Cognitive Technologies 为 OpenOCR 开发了免费软件和 BSD 许可。虽然它支持跨平台使用,但不向 Linux 用户提供图形界面。

为了简化任何 Dot NET Framework 2.0 或更高版本应用程序中的字符识别工作,我们使用了封装库 Puma Dot NET。它在处理数据时进行字典检查,以提高识别质量。

CuneiForm 是一种技术,旨在自动或半自动地将纸质文件和图像文件的电子副本转换成可编辑的形式,而不影响文件的结构和原始字体。该系统由两部分组成,分别用于批量处理电子文档和一次处理一份文档。此外,该系统还支持俄语和英语的组合。只有安德烈-博罗夫斯基(Andrei Borovsky)于 2009 年创建的分支才支持其他混合语言的识别。让该系统识别其他语言具有挑战性,因为每种语言都与一个数据文件相关联,而开发人员并未披露该文件的结构和创建过程。

Kraken

开发 Kraken 的目的是在不影响 Ocropus 其他功能的情况下,解决其存在的问题。它利用其 CLSTM 神经网络库,并通过新数据利用从以前项目中获得的宝贵经验。它需要使用某些外部库才能在不同平台上有效运行。在存储信息的帮助下,它可以对潜在的数据验证问题做出更准确的预测。此外,它的工作方法还有助于轻松部署和培训新模型。

A9T9

A9T9 是一款免费的 OCR 软件,可用于从图片文件中提取文本以及转换图像和 PDF 文档。它提供图形用户界面 (图形用户界面) 用于 Tesseract OCR 引擎。

该程序易于设置。最重要的是,它完全免费且开源。它没有间谍软件和广告软件。

你可以打开 PDF 文件或图像,源文件的内容将显示在左侧窗口中。如果文档有多个页面或为多页文档,可以使用页面底部的箭头在页面之间导航。

要启动 OCR 流程,只需单击绿色的 OCR 按钮,输出结果就会出现在右侧第二个窗格中。您可以选择将输出文本保存为文本文件或 Word 文档。

IronOCR

与标准的 Tesseract 库相比,IronOCR 扩展了 Tesseract,并提供了一个具有更高精度、更高性能和更高稳定性的本地 C# OCR 库。IronOCR 可用于 .NET 程序和网站,从 PDF 和图像中提取文本。它支持多种外语,可生成纯文本或结构化数据输出。它还能扫描内嵌文本的条形码和图像。该库可用于为控制台、网络、MVC 和桌面开发的 .NET 应用程序中。开发团队可直接协助商业部署的许可流程。IronOCR 与最新版本的 Visual Studio 兼容。

IronOCR 的优势

  • IronOCR 使用最新的 Tesseract 5 引擎,能够从各种图片或 PDF 文件中读取纸质文档、条形码和 QR 码。该软件包简化了将 OCR 纳入桌面、控制台和网络应用程序的过程。
  • IronOCR 使我们能够执行 OCR,从而将扫描的 PDF 转换为可搜索的 PDF。
  • 除了单词列表和自定义语言外,IronOCR 还支持全球 127 种不同语言。
  • IronOCR 可以扫描 20 多种不同类型的条形码和 QR 码。

  • IronOCR 可提供纯文本输出和条形码数据。开发人员可以使用另一种结构化数据对象范例检索所有内容,以便直接输入系统。这包括网络应用程序中的结构化标题、段落、行、单词和字符。

下面是我们将用来识别给定图像中的文本内容并将其转换为文本的示例代码。

var Ocr = new IronTesseract();   
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var Input = new OcrInput())      
{          
    Input.AddImage(@"Demo.png");         
    var R = Ocr.Read(Input);       
    Console.WriteLine(R.Text);        
    Console.ReadKey();          
}
var Ocr = new IronTesseract();   
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var Input = new OcrInput())      
{          
    Input.AddImage(@"Demo.png");         
    var R = Ocr.Read(Input);       
    Console.WriteLine(R.Text);        
    Console.ReadKey();          
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.EnglishBest
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5
Using Input = New OcrInput()
	Input.AddImage("Demo.png")
	Dim R = Ocr.Read(Input)
	Console.WriteLine(R.Text)
	Console.ReadKey()
End Using
VB   C#

在上面的代码片段中,我们正在使用 "IronTesseract "开发一个功能。首先,我们实例化一个新的 OcrInput 对象,以便添加一个或多个图像文件。使用 OcrInput 对象的 Add 方法时,我们可能需要在代码中指定图片的路径。您可以根据需要添加任意数量的图像。通过解析图像文件并将结果提取到 OCR 结果中,我们可以利用之前创建的对象上的 Read 功能来访问图像。它具有从图像中提取文本并将其转换为字符串的功能。

下面的输出显示了从之前提供的图像中提取的文本,表明文本已成功从图像中提取出来。

OCR C# 开放源代码(面向开发人员的列表) 图 1 - 输出

见此 邮寄 以获得全面的 IronOCR 指导。

结论

OCR 开源工具允许我们使用其源代码构建自己的程序。但是,有些工具没有官方库或专门团队来提供编码问题支持。Tesseract 的文档也缺乏常见使用场景的示例代码或教程,这使得初学者在理解代码和库方面面临挑战。

IronOCR 支持各种 .NET 项目,如 .NET Framework Standard 2、.NET Framework 4.5 和 .NET Core 2、3 和 5。它还能与 Mono、Xamarin 和 Azure 等较新的技术配合使用。通过利用 IronOCR 技术,我们可以增强 Tesseract 的效果,纠正不准确的扫描文档或图像。复杂的 Tesseract 字典系统通过 NuGet 软件包进行管理。我们利用 Iron OCR 库开发 OCR 工具。

有了 IronOCR,我们无需任何额外配置即可使用该程序,它支持 PDF 文件、多帧 TIFF 和所有常见图像格式。它还提供条形码识别功能,允许我们从图像中提取条形码数据和读取条形码值。IronOCR 提供免费试用的高性价比开发版,终身许可证包含在 IronOCR 软件包中,无需额外费用。IronOCR 捆绑软件只需一次付款即可覆盖多个平台。有关 IronOCR 定价的更多信息,请参阅以下内容 页码.

< 前一页
最好的日文OCR (开发者更新列表)
下一步 >
如何使用Tesseract从图像中获取文本

准备开始了吗? 版本: 2024.9 刚刚发布

免费NuGet下载 总下载量: 2,319,721 查看许可证 >