OCR工具

如何对PDF进行光学字符识别教程（免费在线工具）

Name: IronOCR
Brand: Iron Software
Availability: InStock
Rating: 4.86 (101 reviews)

坎那帕·乌东攀

2023年一月25日

OCR 或光学字符识别是将文本信息转换为数字形式的过程。 PDF OCR 是一种流行的应用程序，可用于改进业务流程。 PDF OCR 的好处之一是可以用来提高信息的可访问性。这一点对于没有人人都能使用或阅读的格式的文档尤为重要。 PDF OCR 可用于生成每个人都能使用的格式的文档副本。

PDF OCR 的另一个用途是跟踪文件。当文档被归档、扫描或转录时，很难追踪哪个版本的文档与哪个文件相关联。有了 PDF OCR，就可以跟踪对文档所做的更改，并确定哪个版本与哪个文件相关联。这对于管理文件档案和防止丢失重要信息非常有用。

在本文中，您将了解如何使用 Adobe Acrobat Pro 软件对任何 PDF 文件使用 OCR。本文还将介绍 IronOCR for .NET OCR 库，它是目前最高效、功能最丰富的库之一。让我们从 Adobe Acrobat Pro 开始。

使用 Adobe Acrobat Pro DC 对 PDF 进行 OCR 识别

Adobe Acrobat Pro DC 是 Adobe Acrobat Reader DC 的专业版。它是最流行、最强大的 PDF 操作工具。使用该软件，您可以创建、编辑、签署和审阅任何 PDF 文档。此外，它还能将 PDF 转换为 PowerPoint 演示文稿、Word 文档或 Excel 文件。它还可以编辑扫描文件。

新版 Acrobat DC 还是一款文档扫描仪，可以使用 OCR 技术将扫描文档快速转化为数字文件。它具有光学字符识别功能和智能名片扫描功能，可在几秒钟内自动检测并保存名片上的联系信息。

除了能够从 PDF 文件中提取文本外，Acrobat Pro DC 还具有许多功能，使其成为 PDF 转录的重要工具。

让我们看看如何使用 Adobe Acrobat Pro 对扫描文档进行 OCR 识别。

在 Adobe Acrobat 中打开所需的 PDF 文档（在我们的例子中是一个扫描的 PDF 文件）。
从文档右侧窗格中选择 "编辑 PDF"。
这将打开 Adobe Reader OCR PDF 工具的界面。
单击顶部功能区的 "编辑 "按钮。
这将把扫描的 PDF 文档转换为完全可编辑的 PDF 文档。您可以在 PDF 文件上编辑文本和图像文件。
您还可以更改文本块位置、文本字体等。
在进行任何修改后，保存文件，您就可以在文档中看到这些修改。

IronOCR：.NET OCR 库

IronOCR for .NET 是一个 .NET OCR 库和 OCR 工具，可以通过将文本文档和图像转换为机器可读格式来读取它们。

本光学字符识别库的开发考虑了以下因素：

需要一个强大而准确的 OCR 引擎，该引擎可用于不同语言，无需任何外部软件。
需要一个易于使用的 API，可在 Windows、Linux 和 macOS 等不同平台上运行。
需要一个可以轻松集成到各种 .NET 应用程序中并支持 WPF 和控制台应用程序的 OCR 引擎。
IronOCR 可使开发人员更轻松地创建支持扫描文档、提取文本和元数据、为扫描的图像文件编制索引、将图像转换为可搜索的 PDF 以及将扫描文档转换为可读文本的软件。 IronOCR 在编码、图像格式转换以及文本识别和提取方面提供了很多选择。 IronOCR 支持 125 种语言。
IronOCR 提供了直观、强大和准确的 OCR 流程，可识别扫描文档、照片和截图中的文本，同时减少页面分割和布局分析等耗时的任务。该库使用 C# 开发，其 API 设计简单明了，具有良好的可读性。
让我们来探讨一些使用 IronOCR 的代码示例：

代码示例

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}

Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' OCR entire document
	Input.AddPdf("example.pdf", "password")

	' Alternatively OCR selected page numbers
	Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using

$vbLabelText $csharpLabel

IronOCR 可让你选择对整个 PDF 文档或 PDF 文件的某些选定页面范围进行 OCR 识别。

PDF 文件（输入）

控制台输出

您可以使用 IronOCR 将 PDF 转换为可选择的 PDF；简单明了。请参见下面的 PDF 转换代码片段：

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf","password");

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf","password");

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}

Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	Input.AddPdf("scan.pdf","password")

	' clean up twisted pages
	Input.Deskew()

	Dim Result = Ocr.Read(Input)
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using

$vbLabelText $csharpLabel

IronOCR 还提供许多其他工具和功能。您可以通过访问以下链接来探索IronOCR功能。

结论

与市场上的其他库相比，IronOCR 库具有多项优势。只需几行代码，您就可以通过添加自己的模块来修改和扩展其功能。 IronOCR 目前可以阅读超过 125 种语言的文本。与其他库相比，它的开发目的是产生更高质量、更可靠的结果，同时消耗更少的时间和内存资源。

IronOCR 在开发中是免费的。 IronOCR还提供免费试用以在生产中进行测试。有关IronOCR的价格和免费试用的更多详情，请点击链接。

坎那帕·乌东攀

立即与工程团队聊天

软件工程师

在成为软件工程师之前，Kannapat 从日本北海道大学完成了环境资源博士学位。在攻读学位期间，Kannapat 还成为了生物生产工程系车辆机器人实验室的成员。2022年，他利用自己的 C# 技能加入了 Iron Software 的工程团队，专注于 IronPDF。Kannapat 珍视他的工作，因为他能直接向编写 IronPDF 大部分代码的开发者学习。除了同伴学习，Kannapat 还享受在 Iron Software 工作的社交方面。不写代码或文档时，Kannapat 通常在 PS5 上玩游戏或重看《最后生还者》。

< 前一页
从PDF进行OCR（免费在线工具）

下一步 >
最佳中文OCR（免费和在线工具）