在实际环境中测试
在生产中测试无水印。
随时随地为您服务。
光学字符识别或 OCR 是一种用于识别图像中文本的技术。该技术用于扫描印刷文本或图像文件,并在计算机上进行识别。这是因为如今很多东西都是数字化的,比如电子邮件或书籍。不过,OCR 技术已经发展得更加复杂,其专门算法能够识别多种不同字体的文本,即使这些文本已经被噪音或其他常见失真(如 JPEG 压缩)所扭曲。OCR 还能读取纸张上的笔迹,准确率高达 98%。
使用 OCR 扫描的文本可以进行编辑、索引、搜索、打印和存档。OCR 软件广泛应用于医疗保健、制药、保险和法律行业。它有助于将纸质文档转换为数字文档,从而可以更方便地重复使用和与他人共享。
让我们来看看如何使用不同的工具对 PDF 文件进行 OCR 识别。
Adobe 是最初开发 PDF 的公司。他们提供了一个快速、高效的 OCR 引擎,可以编辑任何 PDF 文档。它是市场上功能最强大的 OCR 引擎之一,如果你有大量 PDF 文档需要编辑,Adobe Acrobat DC 就是你应该购买的软件。该软件的设计方式使其可以非常准确地将任何基于文本的文档转换为 PDF 格式。它还能使用自定义字体生成器保留原始文档的字体。
让我们看看如何使用 Adobe Acrobat 进行 PDF OCR:
您可以一次轻松执行多个扫描 PDF 文档的 OCR。
Sejda 是一款支持 OCR 的 PDF 编辑软件,可以托管在云端,也可以作为桌面应用程序下载到 macOS、Windows 或 Linux。Sejda 允许用户压缩、编辑、数字签名、合并和填写 PDF 文件。例如,JPEG 和 Excel 等各种格式的文件都可以转化为 PDF 文件。PDF 文件同样可以转换成 Word 和 PowerPoint 文档等其他格式。让我们看看如何使用 Sejda OCR 对 PDF 文档进行 OCR 识别。
苏打 PDF OCR 是一款免费在线 OCR 软件,可从图像中提取文本。它是一款 PDF OCR 转换工具,可将扫描文件、传真和其他打印输出转换为可编辑文本、PDF 和可搜索 PDF。最常使用的情况是将扫描文件或传真转换成可编辑的文件。这是一款免费的在线 OCR 软件。所有上传的文档会在特定时间后自动从服务器上删除。它具有多种功能,如将 PDF 转换为 Word,然后可使用 Microsoft Word 打开。
让我们看看如何使用 苏打PDF 对 PDF 执行 OCR:
IronOCR 是 .NET Framework 中最好的 OCR 库。它提供了处理文本和图像的强大 API,以及实时识别、字段检测、扫描 PDF 文件的光学字符识别等多种功能。IronPDF 还能编辑扫描文档。
IronOCR 为开发人员的应用程序提供了强大的文本识别功能。它可用于多种用途,如将扫描文档转换为数字格式或识别图像上的标题。IronOCR .NET Library 为 IronOCR SDK 提供了一个易于使用的底层接口。此外,它还具有一些功能,能让开发人员更方便地使用 IronOCR。例如,该库包含一个图像处理管道,可自动处理低 DPI 图像并从 PDF 文档中提取文本。
让我们看看如何使用 OCR 工具对 PDF 文件进行 OCR 识别:
以下代码可对整个 PDF 文档执行 OCR。
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
' OCR entire document
Input.AddPdf("example.pdf", "password")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
您可以使用 "AddPdfPages "功能对选定的 PDF 页面进行 OCR 识别。
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
' Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
您可以使用 IronOCR 的 "SaveAsSearchablePdf "函数将 PDF 文件转换为可搜索的 PDF 文件。
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf", "password")
// clean up twisted pages
Input.Deskew();
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf", "password")
// clean up twisted pages
Input.Deskew();
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
Input.AddPdf("scan.pdf", "password") Input.Deskew()
Dim Result = Ocr.Read(Input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
我们已经探索了几款优秀的光学字符识别软件工具。通过这些工具,您可以以编程方式识别文本,并创建可搜索和可编辑的 PDF 文件。
如果使用 .NET Framework 编写文档,我们推荐使用 IronOCR。IronOCR 可以让你在 .NET Framework 中轻松执行 OCR;它功能强大,即使在原始文档已损坏或变形(如水渍)的情况下也能轻松使用。
另一个用例是将手工填写的旧纸质表格(如发票和销售收据)转换为数字版本。这样,会计软件就能自动处理这些文件,从而提高准确性和效率。