OCR工具

如何对PDF进行光学字符识别教程(免费在线工具)

发布 2023年一月25日
分享:

OCR 或光学字符识别是将文本信息转换为数字形式的过程。PDF OCR 是一种流行的应用程序,可用于改进业务流程。PDF OCR 的好处之一是可以用来提高信息的可访问性。这对于不是每个人都能使用或阅读的格式的文档尤为重要。PDF OCR 可用于生成每个人都能使用的格式的文档副本。

PDF OCR 的另一个用途是跟踪文档。当文档被归档、扫描或转录时,很难跟踪哪个版本的文档与哪个文件相关联。有了 PDF OCR,就可以跟踪对文档所做的更改,并确定哪个版本与哪个文件相关联。这对于管理文件档案和防止丢失重要信息非常有用。

在本文中,您将了解如何使用 Adobe Acrobat Pro 软件对任何 PDF 文件使用 OCR。本文还将介绍.NET OCR 库 IronOCR,它是目前最高效、功能最丰富的库之一。让我们从 Adobe Acrobat Pro 开始。

使用 Adobe Acrobat Pro DC 对 PDF 进行 OCR 识别

如何 OCR PDF - 图 1

Adobe Acrobat Pro DC 是 Adobe Acrobat Reader DC 的专业版。它是最流行、功能最强大的 PDF 操作工具。有了这款软件,你可以创建、编辑、签署和审阅任何 PDF 文档。此外,它还能将 PDF 转换为 PowerPoint 演示文稿、Word 文档或 Excel 文件。它还可以编辑扫描文档。

新版 Acrobat DC 还是一款文档扫描仪,可以使用 OCR 技术将扫描文档快速转化为数字文件。它具有光学字符识别功能和智能名片扫描功能,可在几秒钟内自动检测并保存名片上的联系信息。

除了能从 PDF 文件中提取文本外,Acrobat Pro DC 还具有许多功能,使其成为 PDF 转录的重要工具。

让我们看看如何使用 Adobe Acrobat Pro 对扫描文档进行 OCR 识别。

  • 在 Adobe Acrobat 中打开所需的 PDF 文档,例如扫描的 PDF 文件。
  • 从文件右侧窗格中选择 "编辑 PDF"。
如何 OCR PDF - 图 2

  • 这将打开 Adobe Reader OCR PDF 工具的界面。
  • 点击顶部功能区的 "编辑 "按钮。

  • 这将把扫描的 PDF 文档转换为完全可编辑的 PDF 文档。你可以编辑 PDF 文件本身的文本和图像文件。
如何 OCR PDF - 图 3

  • 您还可以更改文本块位置、文本字体等。

进行任何更改后,保存文件,您就可以在文档中看到这些更改。

IronOCR:.NET OCR 库

如何 OCR PDF - 图 4

IronOCR 是一个 .NET OCR 库和 OCR 工具,可通过将文本文档和图像转换为机器可读格式来读取它们。

开发该光学字符识别库时考虑了以下因素:

  • 需要一个强大而准确的光学字符识别引擎,该引擎可用于不同语言,无需任何外部软件。
  • 需要一个易于使用的应用程序接口,可在 Windows、Linux 和 macOS 等不同平台上运行。

  • 需要一个可以轻松集成到各种 .NET 应用程序中并支持 WPF 和控制台应用程序的 OCR 引擎。

IronOCR 可使开发人员更轻松地创建支持扫描文档、提取文本和元数据、为扫描的图像文件编制索引、将图像转换为可搜索的 PDF 以及将扫描文档转换为可读文本的软件。IronOCR 在编码、图像格式转换以及文本识别和提取方面提供了大量选项。IronOCR 支持 125 种语言。

IronOCR 提供直观、强大和准确的 OCR 流程,可识别扫描文档、照片和屏幕截图中的文本,同时减少页面分割和布局分析等耗时的任务。该库使用 C# 开发,其 API 设计简单明了,具有良好的可读性。

让我们来看看使用 IronOCR 的一些代码示例:

代码示例

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' OCR entire document
	Input.AddPdf("example.pdf", "password")

	' Alternatively OCR selected page numbers
	Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

IronOCR 可让你选择对整个 PDF 文档或 PDF 文件的某些选定页面范围进行 OCR 识别。

PDF 文件(输入)

如何 OCR PDF - 图 5

控制台输出

如何 OCR PDF - 图 6

你可以使用 IronOCR 将 PDF 转换为可选择的 PDF;这非常简单直接。请看下面的 PDF 转换代码片段:

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf","password");

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf","password");

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	Input.AddPdf("scan.pdf","password")

	' clean up twisted pages
	Input.Deskew()

	Dim Result = Ocr.Read(Input)
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

IronOCR 还提供许多其他工具和功能。您可以访问以下网站了解 IronOCR 的功能 链接.

结论

与市场上的其他库相比,IronOCR 库具有多项优势。只需几行代码,您就可以通过添加自己的模块来修改和扩展其功能。IronOCR 目前可读取 125 种以上语言的文本。与其他库相比,IronOCR 的开发目的是产生更高质量、更可靠的结果,同时消耗更少的时间和内存资源。

IronOCR 的开发是免费的。IronOCR 还提供 免费试用 用于生产测试。有关 IronOCR 定价和免费试用的详细信息,请访问 链接.

如何 OCR PDF - 图 7

< 前一页
从PDF进行OCR(免费在线工具)
下一步 >
最佳中文OCR(免费和在线工具)

准备开始了吗? 版本: 2024.9 刚刚发布

免费NuGet下载 总下载量: 2,319,721 查看许可证 >