在实际环境中测试
在生产中测试无水印。
随时随地为您服务。
光学字符识别或 OCR 是一种用于识别图像中文本的技术。 该技术用于扫描印刷文本或图像文件,并在计算机上进行识别。 因为如今很多东西都是数字化的,例如电子邮件或书籍。 然而,OCR 技术已经发展得更加复杂,其专业算法能够识别多种不同字体的文本,即使这些文本已经被噪音或其他常见失真(如 JPEG 压缩)所扭曲。 OCR 还可以读取纸张上的笔迹,准确率高达 98%。
使用 OCR 扫描的文本可以进行编辑、索引、搜索、打印和存档。 OCR 软件广泛应用于医疗保健、制药、保险和法律行业。 它有助于将纸质文档转换为数字文档,从而可以更方便地重复使用并与他人共享。
让我们看看如何使用不同的工具对 PDF 文件进行 OCR 识别。
Adobe 是最初开发 PDF 的公司。 他们提供了一个快速、高效的 OCR 引擎,可以编辑任何 PDF 文档。 Adobe Acrobat DC 是市场上功能最强大的 OCR 引擎之一,如果您有大量 PDF 文件需要编辑,那么您应该购买 Adobe Acrobat DC。 该软件的设计方式使其可以非常准确地将任何基于文本的文档转换为 PDF 格式。 译文还使用自定义字体生成器保留了原始文档的字体。
让我们看看如何使用 Adobe Acrobat 进行 PDF OCR:
现在,您可以轻松编辑文档中的任何文本并更改图像文件。
您可以选择 "文件 > 另存为 "来保存文件,并为新的 PDF 文档命名。
您可以一次轻松执行多个扫描 PDF 文档的 OCR。
Sejda 是一款支持 OCR 的 PDF 编辑软件,可以托管在云端,也可以作为桌面应用程序下载到 macOS、Windows 或 Linux。 Sejda 允许用户压缩、编辑、数字签名、合并和填写 PDF 文件。 例如,JPEG 和 Excel 等各种格式的文件都可以转换成 PDF 文件。 PDF 文件同样可以转换成 Word 和 PowerPoint 文档等其他格式。 让我们看看如何使用 Sejda OCR 对 PDF 文档进行 OCR 识别。
上传后,您将看到上传的文件名。 选择文档语言。
选择语言后,您必须选择输出格式。 您可以选择 "PDF "或 "文本"。 设置输出格式后,点击 "识别所有页面上的文本 "按钮。 开始提取文本。
SodaPDF OCR 是一款免费的在线 OCR 软件,可以从图像中提取文本。 这是一款 PDF OCR 转换工具,可将扫描文件、传真和其他打印输出转换为可编辑文本、PDF 和可搜索 PDF。 SodaPDF OCR 最常见的使用案例是将扫描文件或传真转换为可编辑的文件。 这是一款免费的在线 OCR 软件。 所有上传的文档都会在特定时间后从服务器上自动删除。它具有多种功能,如将 PDF 转换为 Word,然后可以使用 Microsoft Word 打开。
让我们看看如何使用 SodaPDF 对 PDF 执行 OCR:
IronOCR 是 .NET Framework 中用于 OCR 的最佳库。 它提供了一个强大的 API 来处理文本和图像,并具有实时识别、字段检测、扫描 PDF 文件的光学字符识别等多种功能。 IronPDF 还可以编辑扫描文档。
IronOCR让开发人员在其应用程序中使用文本识别功能。 它可用于多种用途,如将扫描文件转换为数字格式或识别图像上的标题。 IronOCR .NET 库为 IronOCR SDK 提供了一个易于使用的底层接口。 除此之外,它还有一些功能,能让开发人员更方便地使用 IronOCR。 例如,该库包括一个图像处理管道,可自动处理低 DPI 图像并从 PDF 文档中提取文本。
让我们看看如何使用 OCR 工具对 PDF 文件进行 OCR 识别:
以下代码可以对整个 PDF 文档执行 OCR。
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
' OCR entire document
Input.AddPdf("example.pdf", "password")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
您可以使用 "AddPdfPages "功能对选定的 PDF 页面进行 OCR 识别。
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
' Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
您可以使用 IronOcr 的 SaveAsSearchablePdf
功能将 PDF 文件转换为可搜索的 PDF 文件。
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf", "password")
// clean up twisted pages
Input.Deskew();
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf", "password")
// clean up twisted pages
Input.Deskew();
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
Input.AddPdf("scan.pdf", "password") Input.Deskew()
Dim Result = Ocr.Read(Input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
我们已经探索了几款优秀的光学字符识别软件工具。 这些工具允许您以编程方式识别文本并创建可搜索和可编辑的 PDF。
如果使用 .NET Framework 编写,我们推荐使用 IronOCR for .NET。 IronOCR 可让您在 .NET Framework 中轻松执行 OCR; 此外,译文还必须具有很强的可读性,即使在原始文件因水渍等原因受损或变形的情况下也能轻松使用。
另一个使用案例是将手工填写的旧纸质表格(如发票和销售收据)转换为数字版本。 这样,会计软件就可以自动处理这些文档,从而提高准确性和效率。