OCR工具

Microsoft OCR工具(C#替代方案)

发布 2023年三月30日
分享:

OCR (光学字符识别) 对各种规模的企业来说都是一项至关重要的技术。它可以高效地扫描、存储和分析数据,否则处理起来既费时又复杂。

微软 OCR 工具为简化数字化转型过程提供了强大的选项。这些工具可以实现更快、更高效的文档处理,让您腾出时间专注于发展业务这一重要任务。在本文中,我们将探讨如何利用功能强大的 Microsoft OCR 工具来简化您的运营。

OneNote:微软工具

如果你需要从图像中提取文本,Microsoft OneNote 是一款非常有用的工具。OneNote 是一款多功能笔记应用程序,为捕捉、存储和组织文本、图像、音频和视频等各种形式的信息提供了一个平台。它还是从图像或文件打印输出中复制文本的重要工具,省去了手动键入文本的麻烦,节省了时间和精力。

使用 OneNote 提取文本

要使用 OneNote 从图像中提取文本,请按照以下步骤操作:

1.启动 OneNote 应用程序。

2.使用 "插入 "选项或直接将图像文件拖放到 OneNote 窗口中。

OneNote 插入功能区

OneNote 插入功能区

  1. 右键单击图片,从菜单中选择 "从图片复制文本"。
在右键菜单中从图片复制文本

在右键菜单中从图片复制文本

  1. 最后,将复制的文本粘贴到任何需要的位置,以访问从扫描图像中提取的文本。
文本来源于从图像中复制的文本

文本来源于从图像中复制的文本

这就是如何使用 OneNote 扫描任何图像的方法。

Microsoft Vision Studio

微软认知服务提供 "从图像中提取文本 "功能,利用人工智能扫描图像并准确检测文本。这项服务对用户友好,只需上传图像或 PDF 文件。然后会对信息进行高精度转录,确保提取的文本准确反映图像或 PDF 文件的内容。

此外,提取的文本可以使用多种语言,使世界各地的用户都能使用这项服务。有了微软认知服务的 "从图像中提取文本 "功能,从图像中提取有价值的数据就变得非常简单,并能实现高效分析和有效完成任务。

使用 Microsoft Vision Studio 提取文本

要使用 "从图像提取文本 "功能,可以访问 Microsoft Azure 的 视觉工作室网站.不过,这项服务需要订阅 Azure。购买订阅后,您就可以访问从扫描文档中提取的文本。以下是输出图像示例,供参考。

扫描图像以获取文本

扫描图像以获取文本

A9T9 微软免费 OCR 软件

A9T9 免费 OCR 软件是一款多功能工具,可让 Windows 用户毫不费力地将纸质文档转换为数字文本。其直接的拖放功能可即时识别多种语言的文本,包括英语、德语、中文、韩语和印地语。该软件可从扫描图像或 PDF 文档中提取数据,并将其转换为可编辑、可搜索的格式。

该软件支持富文本、TXT 或 CSV 等多种输出格式,以及 BMP、TIF 或 PDF 等图像格式。它还具有自动文档纠偏功能。该软件能快速、准确地识别各种语言图像中的文本,甚至是透明背景的图像。A9T9 的准确率高、价格低廉、安装简便,是 Windows 用户寻找免费 OCR 软件解决方案的首选。

使用 A9T9 复制文本

您可以从以下网址下载 A9T9 软件 微软商店.安装完成后,打开 A9T9 软件并上传图像或 PDF 文件。

扫描图像以获取文本

使用 A9T9 复制文本

加载图像或文档后,点击 "开始 OCR "按钮。这将从扫描的文档或图像中提取文本,并显示在右侧的文本区域。

文字显示在右侧

文字显示在右侧

您可以选择 OCR 语言,还可以复制文本或将其保存为 Word 文档。

办公室镜头

Office Lens 是一款复杂的工具,用于捕捉和整理笔记、白板、菜单、标志和其他类型的书面或视觉信息。与传统的记笔记方式相比,这款应用程序提供了更优越的替代方案,无需手写笔记,也不会丢失重要信息。

Office Lens 可让用户轻松捕捉草图、手写笔记、绘图和方程式,并纠正图像的阴影和倾斜角度,以提高可读性。它还具有 OCR (光学字符识别)使用户能够数字化和编辑图像中的文本。

遗憾的是,微软已经停止了 Windows 版本的 Office Lens。现在它只能在移动设备上使用。此外,Microsoft Word 2010 中也删除了 Microsoft Office Document Imaging。

IronOCR:C# OCR 库

IronOCR 是一款面向 .NET 开发人员的功能强大的 C# OCR 库。它能在扫描文档和图像上实现完整的 OCR 功能,使开发人员能轻松实现基于文档的工作流程自动化。凭借其简单的应用程序接口和最少的配置,IronOCR 可以直接集成到现有系统中。

该库提供了简单的应用程序接口,只需最少的配置即可轻松集成到现有系统中。它支持多种输入文件格式,包括 JPEG、TIFF、GIF、BMP、PDF、多页 TIFF 和多文档扫描,并能从不同方向的图像中读取文本。

IronOCR 的高级功能包括去噪,有助于减少图像失真,提高文本提取结果的准确性。该库支持超过 125 种语言,包括英语、法语、德语、西班牙语和日语,适用于几乎所有需要高质量 OCR 结果而无需人工干预的应用。

使用 IronOCR 提取文本

有了从 PDF 文件中轻松提取文本的功能,就可以指定特定页码或从文档的所有页面中提取文本。使用适当的工具可以简化文本提取过程,提高效率。

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

using (var ocrInput = new OcrInput())
{
    // OCR entire document
    ocrInput.AddPdf("example.pdf");

    // Alternatively OCR selected page numbers
    ocrInput.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

using (var ocrInput = new OcrInput())
{
    // OCR entire document
    ocrInput.AddPdf("example.pdf");

    // Alternatively OCR selected page numbers
    ocrInput.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()

Using ocrInput As New OcrInput()
	' OCR entire document
	ocrInput.AddPdf("example.pdf")

	' Alternatively OCR selected page numbers
	ocrInput.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	Dim ocrResult = ocrTesseract.Read(ocrInput)
	Console.WriteLine(ocrResult.Text)
End Using
VB   C#

下面是输出结果:

Visual Studio 调试控制台内部的输出结果

Visual Studio 调试控制台内部的输出结果

除了从 PDF 文件中提取文本外,您还可以轻松读取条形码。该库提供了读取条形码的简单代码实现,使其成为各种基于文档的工作流程的通用工具。请参见以下代码:

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
using (var ocrInput = new OcrInput(@"images\imageWithBarcode.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);
    foreach (var barcode in ocrResult.Barcodes)
    {
        Console.WriteLine(barcode.Value);
    }
}
using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
using (var ocrInput = new OcrInput(@"images\imageWithBarcode.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);
    foreach (var barcode in ocrResult.Barcodes)
    {
        Console.WriteLine(barcode.Value);
    }
}
Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()
ocrTesseract.Configuration.ReadBarCodes = True
Using ocrInput As New OcrInput("images\imageWithBarcode.png")
	Dim ocrResult = ocrTesseract.Read(ocrInput)
	For Each barcode In ocrResult.Barcodes
		Console.WriteLine(barcode.Value)
	Next barcode
End Using
VB   C#
代码的输入/输出

代码的输入/输出

IronOCR 能够支持低 DPI 和噪点图像。

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    ocrInput.Deskew();
    ocrInput.DeNoise();
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    ocrInput.Deskew();
    ocrInput.DeNoise();
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()
Using ocrInput As New OcrInput("images\image.png")
	ocrInput.Deskew()
	ocrInput.DeNoise()
	Dim ocrResult = ocrTesseract.Read(ocrInput)
	Console.WriteLine(ocrResult.Text)
End Using
VB   C#

结论

总之,光学字符识别 (光学字符识别) OCR 是一种重要的工具,能让各种规模的企业受益匪浅,使他们能够高效地扫描、存储和处理信息,否则这些信息的手动管理将是复杂而耗时的。微软提供各种 OCR 工具,包括 OneNote、Microsoft Vision Studio 和 A9T9 免费 OCR 软件,它们可以简化流程并节省时间。

IronOCR 是一个功能完善的 OCR 库,是现有 OCR 工具中的佼佼者。它可与 C# 和 VB.NET 应用程序轻松集成,具有出色的准确性,可识别多种语言和图像格式,并具有 免费试用 许可证费用从 $749 起。IronOCR 对于希望改善数字化转型的企业来说是一项有价值的投资。每种 OCR 工具都具有独特的功能,可以满足不同的需求,因此对于希望改进数字化转型的企业来说,它们都是宝贵的资产。

< 前一页
适用于Windows 10的最佳OCR软件(比较列表)
下一步 >
安装Tesseract(带图片的分步教程)

准备开始了吗? 版本: 2024.9 刚刚发布

免费NuGet下载 总下载量: 2,319,721 查看许可证 >