OCR工具

如何对PDF进行光学字符识别教程(免费在线工具)

发布 2023年一月25日
分享:

OCR 或光学字符识别是将文本信息转换为数字形式的过程。 PDF OCR 是一种流行的应用程序,可用于改进业务流程。 PDF OCR 的好处之一是可以用来提高信息的可访问性。 这一点对于没有人人都能使用或阅读的格式的文档尤为重要。 PDF OCR 可用于生成每个人都能使用的格式的文档副本。

PDF OCR 的另一个用途是跟踪文件。 当文档被归档、扫描或转录时,很难追踪哪个版本的文档与哪个文件相关联。有了 PDF OCR,就可以跟踪对文档所做的更改,并确定哪个版本与哪个文件相关联。这对于管理文件档案和防止丢失重要信息非常有用。

在本文中,您将了解如何使用 Adobe Acrobat Pro 软件对任何 PDF 文件使用 OCR。 本文还将介绍 IronOCR for .NET OCR 库,它是目前最高效、功能最丰富的库之一。 让我们从 Adobe Acrobat Pro 开始。

使用 Adobe Acrobat Pro DC 对 PDF 进行 OCR 识别

如何 OCR PDF - 图 1

Adobe Acrobat Pro DC 是 Adobe Acrobat Reader DC 的专业版。 它是最流行、最强大的 PDF 操作工具。 使用该软件,您可以创建、编辑、签署和审阅任何 PDF 文档。 此外,它还能将 PDF 转换为 PowerPoint 演示文稿、Word 文档或 Excel 文件。 它还可以编辑扫描文件。

新版 Acrobat DC 还是一款文档扫描仪,可以使用 OCR 技术将扫描文档快速转化为数字文件。 它具有光学字符识别功能和智能名片扫描功能,可在几秒钟内自动检测并保存名片上的联系信息。

除了能够从 PDF 文件中提取文本外,Acrobat Pro DC 还具有许多功能,使其成为 PDF 转录的重要工具。

让我们看看如何使用 Adobe Acrobat Pro 对扫描文档进行 OCR 识别。

  • 在 Adobe Acrobat 中打开所需的 PDF 文档(在我们的例子中是一个扫描的 PDF 文件)。
  • 从文档右侧窗格中选择 "编辑 PDF"。
    如何 OCR PDF - 图 2

  • 这将打开 Adobe Reader OCR PDF 工具的界面。
  • 单击顶部功能区的 "编辑 "按钮。
  • 这将把扫描的 PDF 文档转换为完全可编辑的 PDF 文档。 您可以在 PDF 文件上编辑文本和图像文件。

    如何 OCR PDF - 图 3

  • 您还可以更改文本块位置、文本字体等。

    在进行任何修改后,保存文件,您就可以在文档中看到这些修改。

IronOCR:.NET OCR 库

如何 OCR PDF - 图 4

IronOCR for .NET 是一个 .NET OCR 库和 OCR 工具,可以通过将文本文档和图像转换为机器可读格式来读取它们。

本光学字符识别库的开发考虑了以下因素:

  • 需要一个强大而准确的 OCR 引擎,该引擎可用于不同语言,无需任何外部软件。
  • 需要一个易于使用的 API,可在 Windows、Linux 和 macOS 等不同平台上运行。
  • 需要一个可以轻松集成到各种 .NET 应用程序中并支持 WPF 和控制台应用程序的 OCR 引擎。

    IronOCR 可使开发人员更轻松地创建支持扫描文档、提取文本和元数据、为扫描的图像文件编制索引、将图像转换为可搜索的 PDF 以及将扫描文档转换为可读文本的软件。 IronOCR 在编码、图像格式转换以及文本识别和提取方面提供了很多选择。 IronOCR 支持 125 种语言。

    IronOCR 提供了直观、强大和准确的 OCR 流程,可识别扫描文档、照片和截图中的文本,同时减少页面分割和布局分析等耗时的任务。 该库使用 C# 开发,其 API 设计简单明了,具有良好的可读性。

    让我们来探讨一些使用 IronOCR 的代码示例:

代码示例

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' OCR entire document
	Input.AddPdf("example.pdf", "password")

	' Alternatively OCR selected page numbers
	Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

IronOCR 可让你选择对整个 PDF 文档或 PDF 文件的某些选定页面范围进行 OCR 识别。

PDF 文件(输入)

如何 OCR PDF - 图 5

控制台输出

如何 OCR PDF - 图 6

您可以使用 IronOCR 将 PDF 转换为可选择的 PDF; 简单明了。 请参见下面的 PDF 转换代码片段:

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf","password");

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf","password");

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	Input.AddPdf("scan.pdf","password")

	' clean up twisted pages
	Input.Deskew()

	Dim Result = Ocr.Read(Input)
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

IronOCR 还提供许多其他工具和功能。 您可以通过访问以下内容探索 IronOCR 的功能链接.

结论

与市场上的其他库相比,IronOCR 库具有多项优势。 只需几行代码,您就可以通过添加自己的模块来修改和扩展其功能。 IronOCR 目前可以阅读超过 125 种语言的文本。 与其他库相比,它的开发目的是产生更高质量、更可靠的结果,同时消耗更少的时间和内存资源。

IronOCR 在开发中是免费的。 IronOCR 还提供了一个免费试用用于生产测试。 有关 IronOCR 定价和免费试用的更多详情,请访问链接.

如何 OCR PDF - 图 7

< 前一页
从PDF进行OCR(免费在线工具)
下一步 >
最佳中文OCR(免费和在线工具)

准备开始了吗? 版本: 2024.11 刚刚发布

免费NuGet下载 总下载量: 2,698,613 查看许可证 >