OCR工具

Microsoft OCR工具(C#替代方案)

发布 2023年三月30日
分享:

OCR(光学字符识别)对于各种规模的企业来说,.NET 是一项至关重要的技术。 它可以高效地扫描、存储和分析数据,否则处理起来既费时又复杂。

Microsoft OCR 工具提供了强大的选项来简化您的数字化转型过程。 这些工具可以更快、更高效地处理文档,让您腾出时间专注于发展业务这一重要任务。 在本文中,我们将探讨如何利用强大的 Microsoft OCR 工具来简化您的操作。

OneNote:微软工具

如果您需要从图像中提取文本,Microsoft OneNote 是一个很有用的工具。 OneNote 是一款多功能笔记应用程序,为捕捉、存储和组织文本、图像、音频和视频等各种形式的信息提供了一个平台。 它还是从图像或文件打印输出中复制文本的重要工具,无需手动键入文本,从而节省了时间和精力。

使用 OneNote 提取文本

要使用 OneNote 从图像中提取文本,请按照以下步骤操作:

  1. 启动 OneNote 应用程序。

  2. 使用 "插入 "选项插入图像文件,或直接将图像文件拖放到 OneNote 窗口中。

    OneNote 插入功能区

    OneNote 插入功能区

  3. 右键单击图片,从菜单中选择 "从图片复制文本"。

    在右键菜单中从图片复制文本

    在右键菜单中从图片复制文本

  4. 最后,将复制的文本粘贴到任何需要的位置,以访问从扫描图像中提取的文本。
    文本来源于从图像中复制的文本

    文本来源于从图像中复制的文本

    这就是如何使用 OneNote 扫描任何图像的方法。

微软视觉工作室

微软认知服务提供 "从图像中提取文本 "功能,利用人工智能扫描图像并准确检测文本。 这项服务对用户友好,只需上传图片或 PDF 文件。然后将对信息进行高精度转录,确保提取的文本准确反映图像或 PDF 文件的内容。

此外,提取的文本可以使用多种语言,使世界各地的用户都能使用这项服务。 有了微软认知服务的 "从图像中提取文本",从图像中提取有价值的数据就变得非常简单,并能实现高效分析和有效完成任务。

使用 Microsoft Vision Studio 提取文本

要使用 "从图像中提取文本 "功能,您可以访问 Microsoft Azure 的视觉工作室网站. 不过,这项服务需要订购 Azure。 购买订阅后,您就可以访问从扫描文档中提取的文本。 以下是输出图像示例,供参考。

扫描图像以获取文本

扫描图像以获取文本

A9T9 微软免费 OCR 软件

A9T9 免费 OCR 软件是一款多功能工具,可让 Windows 用户毫不费力地将纸质文档转换为数字文本。 其直接的拖放功能可即时识别多种语言的文本,包括英语、德语、中文、韩语和印地语。 该软件可以从扫描图像或 PDF 文档中提取数据,并将其转换为可编辑、可搜索的格式。

该软件支持多种输出格式,如富文本、TXT 或 CSV,以及 BMP、TIF 或 PDF 等图像格式。 它还具有自动文档纠偏功能。 该软件可以快速准确地识别各种语言图像中的文本,甚至是透明背景的图像。 A9T9 的高准确率、经济实惠和安装简便使其成为 Windows 用户寻找免费 OCR 软件解决方案的首选。

使用 A9T9 复制文本

您可以从以下网址下载 A9T9 软件微软商店. 安装完成后,打开 A9T9 软件并上传图片或 PDF 文件。

扫描图像以获取文本

使用 A9T9 复制文本

加载图像或文档后,点击 "开始 OCR "按钮。 这将从扫描的文档或图像中提取文本,并将其显示在右侧的文本区域中。

文字显示在右侧

文字显示在右侧

您可以选择 OCR 语言,还可以复制文本或将其保存为 Word 文档。

办公室透镜

Office Lens 是一款复杂的工具,用于捕捉和整理笔记、白板、菜单、标志和其他类型的书面或视觉信息。 该应用程序提供了一种优于传统笔记的替代方法,无需手写笔记,也不会丢失重要信息。

Office Lens 允许用户轻松捕捉草图、手写笔记、绘图和方程式,并纠正图像的阴影和倾斜角度,以提高可读性。 它还具有 OCR(光学字符识别)我们需要翻译的工具包括:.NET、Java、Python 或 Node.js。

遗憾的是,微软已经停止了 Windows 版本的 Office Lens。 现在只能在移动设备上使用。 此外,Microsoft Word 2010 中删除了 Microsoft Office Document Imaging。

IronOCR: C# OCR 库

IronOCR 是一款面向 .NET 开发人员的功能强大的 C# OCR 库。 它可以在扫描的文档和图像上实现完整的 OCR 功能,使开发人员可以轻松实现基于文档的工作流程自动化。 IronOCR 具有简单的 API 和最少的配置,可以直接集成到现有系统中。

该库提供了一个简单的应用程序接口,只需最少的配置即可轻松集成到现有系统中。 它支持多种输入文件格式,包括 JPEG、TIFF、GIF、BMP、PDF、多页 TIFF 和多文档扫描,并能从不同方向的图像中读取文本。

IronOCR 的高级功能包括去噪,有助于减少图像失真,提高文本提取结果的准确性。 该库支持超过 125 种语言,包括英语、法语、德语、西班牙语和日语,几乎适用于任何需要高质量 OCR 结果而无需人工干预的应用程序。

使用 IronOCR 提取文本

由于能够轻松地从 PDF 文件中提取文本,因此可以指定特定的页码或从文档的所有页面中提取文本。 使用适当的工具可以简化文本提取过程,提高效率。

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

using (var ocrInput = new OcrInput())
{
    // OCR entire document
    ocrInput.AddPdf("example.pdf");

    // Alternatively OCR selected page numbers
    ocrInput.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

using (var ocrInput = new OcrInput())
{
    // OCR entire document
    ocrInput.AddPdf("example.pdf");

    // Alternatively OCR selected page numbers
    ocrInput.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()

Using ocrInput As New OcrInput()
	' OCR entire document
	ocrInput.AddPdf("example.pdf")

	' Alternatively OCR selected page numbers
	ocrInput.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	Dim ocrResult = ocrTesseract.Read(ocrInput)
	Console.WriteLine(ocrResult.Text)
End Using
VB   C#

下面是输出结果:

Visual Studio 调试控制台内部的输出结果

Visual Studio 调试控制台内部的输出结果

除了从 PDF 文件中提取文本外,还可以轻松读取条形码。 该库提供了读取 BarCode 的简单代码实现,使其成为各种基于文档的工作流程的通用工具。 请参见以下代码:

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
using (var ocrInput = new OcrInput(@"images\imageWithBarcode.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);
    foreach (var barcode in ocrResult.Barcodes)
    {
        Console.WriteLine(barcode.Value);
    }
}
using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
using (var ocrInput = new OcrInput(@"images\imageWithBarcode.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);
    foreach (var barcode in ocrResult.Barcodes)
    {
        Console.WriteLine(barcode.Value);
    }
}
Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()
ocrTesseract.Configuration.ReadBarCodes = True
Using ocrInput As New OcrInput("images\imageWithBarcode.png")
	Dim ocrResult = ocrTesseract.Read(ocrInput)
	For Each barcode In ocrResult.Barcodes
		Console.WriteLine(barcode.Value)
	Next barcode
End Using
VB   C#
代码的输入/输出

代码的输入/输出

IronOCR 能够支持低 DPI 和噪点图像。

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    ocrInput.Deskew();
    ocrInput.DeNoise();
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    ocrInput.Deskew();
    ocrInput.DeNoise();
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()
Using ocrInput As New OcrInput("images\image.png")
	ocrInput.Deskew()
	ocrInput.DeNoise()
	Dim ocrResult = ocrTesseract.Read(ocrInput)
	Console.WriteLine(ocrResult.Text)
End Using
VB   C#

结论

总之,光学字符识别(光学字符识别)在此过程中,您必须确保技术的准确性,同时解释这些开发人员工具的功能和优势。 微软提供各种 OCR 工具,包括 OneNote、Microsoft Vision Studio 和 A9T9 免费 OCR 软件,这些工具可以简化流程并节省时间。

IronOCR 是一个功能完善的 OCR 库,是现有 OCR 工具中的佼佼者。 它可以方便地与 C# 和 VB.NET 应用程序集成,具有出色的准确性和对多种语言和图像格式的识别能力,并具有免费试用许可证费用从 $749 起。 IronOCR 对于寻求改善数字化转型的企业来说是一项有价值的投资。 每种 OCR 工具都具有独特的功能,可以满足不同的需求,因此对于希望改善数字化转型的企业来说,它们都是宝贵的资产。

< 前一页
适用于Windows 10的最佳OCR软件(比较列表)
下一步 >
安装Tesseract(带图片的分步教程)

准备开始了吗? 版本: 2024.11 刚刚发布

免费NuGet下载 总下载量: 2,698,613 查看许可证 >