在实际环境中测试
在生产中测试无水印。
随时随地为您服务。
OCR 或光学字符识别是将文本信息转换为数字形式的过程。PDF OCR 是一种流行的应用程序,可用于改进业务流程。PDF OCR 的好处之一是可以用来提高信息的可访问性。这对于不是每个人都能使用或阅读的格式的文档尤为重要。PDF OCR 可用于生成每个人都能使用的格式的文档副本。
PDF OCR 的另一个用途是跟踪文档。当文档被归档、扫描或转录时,很难跟踪哪个版本的文档与哪个文件相关联。有了 PDF OCR,就可以跟踪对文档所做的更改,并确定哪个版本与哪个文件相关联。这对于管理文件档案和防止丢失重要信息非常有用。
在本文中,您将了解如何使用 Adobe Acrobat Pro 软件对任何 PDF 文件使用 OCR。本文还将介绍.NET OCR 库 IronOCR,它是目前最高效、功能最丰富的库之一。让我们从 Adobe Acrobat Pro 开始。
Adobe Acrobat Pro DC 是 Adobe Acrobat Reader DC 的专业版。它是最流行、功能最强大的 PDF 操作工具。有了这款软件,你可以创建、编辑、签署和审阅任何 PDF 文档。此外,它还能将 PDF 转换为 PowerPoint 演示文稿、Word 文档或 Excel 文件。它还可以编辑扫描文档。
新版 Acrobat DC 还是一款文档扫描仪,可以使用 OCR 技术将扫描文档快速转化为数字文件。它具有光学字符识别功能和智能名片扫描功能,可在几秒钟内自动检测并保存名片上的联系信息。
除了能从 PDF 文件中提取文本外,Acrobat Pro DC 还具有许多功能,使其成为 PDF 转录的重要工具。
让我们看看如何使用 Adobe Acrobat Pro 对扫描文档进行 OCR 识别。
点击顶部功能区的 "编辑 "按钮。
进行任何更改后,保存文件,您就可以在文档中看到这些更改。
IronOCR 是一个 .NET OCR 库和 OCR 工具,可通过将文本文档和图像转换为机器可读格式来读取它们。
开发该光学字符识别库时考虑了以下因素:
需要一个易于使用的应用程序接口,可在 Windows、Linux 和 macOS 等不同平台上运行。
IronOCR 可使开发人员更轻松地创建支持扫描文档、提取文本和元数据、为扫描的图像文件编制索引、将图像转换为可搜索的 PDF 以及将扫描文档转换为可读文本的软件。IronOCR 在编码、图像格式转换以及文本识别和提取方面提供了大量选项。IronOCR 支持 125 种语言。
IronOCR 提供直观、强大和准确的 OCR 流程,可识别扫描文档、照片和屏幕截图中的文本,同时减少页面分割和布局分析等耗时的任务。该库使用 C# 开发,其 API 设计简单明了,具有良好的可读性。
让我们来看看使用 IronOCR 的一些代码示例:
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
// Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
// Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
' OCR entire document
Input.AddPdf("example.pdf", "password")
' Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
IronOCR 可让你选择对整个 PDF 文档或 PDF 文件的某些选定页面范围进行 OCR 识别。
你可以使用 IronOCR 将 PDF 转换为可选择的 PDF;这非常简单直接。请看下面的 PDF 转换代码片段:
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf","password");
// clean up twisted pages
Input.Deskew();
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf","password");
// clean up twisted pages
Input.Deskew();
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
Input.AddPdf("scan.pdf","password")
' clean up twisted pages
Input.Deskew()
Dim Result = Ocr.Read(Input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
IronOCR 还提供许多其他工具和功能。您可以访问以下网站了解 IronOCR 的功能 链接.
与市场上的其他库相比,IronOCR 库具有多项优势。只需几行代码,您就可以通过添加自己的模块来修改和扩展其功能。IronOCR 目前可读取 125 种以上语言的文本。与其他库相比,IronOCR 的开发目的是产生更高质量、更可靠的结果,同时消耗更少的时间和内存资源。
IronOCR 的开发是免费的。IronOCR 还提供 免费试用 用于生产测试。有关 IronOCR 定价和免费试用的详细信息,请访问 链接.