OCR工具

从PDF进行OCR(免费在线工具)

发布 2023年一月15日
分享:

光学字符识别或 OCR 是一种用于识别图像中文本的技术。 该技术用于扫描印刷文本或图像文件,并在计算机上进行识别。 因为如今很多东西都是数字化的,例如电子邮件或书籍。 然而,OCR 技术已经发展得更加复杂,其专业算法能够识别多种不同字体的文本,即使这些文本已经被噪音或其他常见失真(如 JPEG 压缩)所扭曲。 OCR 还可以读取纸张上的笔迹,准确率高达 98%。

使用 OCR 扫描的文本可以进行编辑、索引、搜索、打印和存档。 OCR 软件广泛应用于医疗保健、制药、保险和法律行业。 它有助于将纸质文档转换为数字文档,从而可以更方便地重复使用并与他人共享。

让我们看看如何使用不同的工具对 PDF 文件进行 OCR 识别。

Adobe Acrobat Pro

Adobe 是最初开发 PDF 的公司。 他们提供了一个快速、高效的 OCR 引擎,可以编辑任何 PDF 文档。 Adobe Acrobat DC 是市场上功能最强大的 OCR 引擎之一,如果您有大量 PDF 文件需要编辑,那么您应该购买 Adobe Acrobat DC。 该软件的设计方式使其可以非常准确地将任何基于文本的文档转换为 PDF 格式。 译文还使用自定义字体生成器保留了原始文档的字体。

让我们看看如何使用 Adobe Acrobat 进行 PDF OCR:

  • 在 Adobe Acrobat Pro DC 中打开文件。
  • 单击右窗格中的 "编辑 PDF "选项。
    PDF OCR 免费在线工具 - 图 1

  • 它将使用 OCR 功能将 PDF 文件转换为可编辑的 PDF。
  • 现在,您可以轻松编辑文档中的任何文本并更改图像文件。

    PDF OCR 免费在线工具 - 图 2

  • 您可以选择 "文件 > 另存为 "来保存文件,并为新的 PDF 文档命名。

    您可以一次轻松执行多个扫描 PDF 文档的 OCR。

塞伊达

Sejda 是一款支持 OCR 的 PDF 编辑软件,可以托管在云端,也可以作为桌面应用程序下载到 macOS、Windows 或 Linux。 Sejda 允许用户压缩、编辑、数字签名、合并和填写 PDF 文件。 例如,JPEG 和 Excel 等各种格式的文件都可以转换成 PDF 文件。 PDF 文件同样可以转换成 Word 和 PowerPoint 文档等其他格式。 让我们看看如何使用 Sejda OCR 对 PDF 文档进行 OCR 识别。

  • 开放 塞伊达 OCR 网站.
  • 单击 "上传 PDF 文件 "按钮上传文件,或从您的计算机拖放文件。
  • 上传后,您将看到上传的文件名。 选择文档语言。

    OCR from PDF 免费在线工具 - 图 3

  • 选择语言后,您必须选择输出格式。 您可以选择 "PDF "或 "文本"。 设置输出格式后,点击 "识别所有页面上的文本 "按钮。 开始提取文本。

    OCR from PDF 免费在线工具 - 图 4

  • 处理完成后,您可以下载提取的文本。
    OCR from PDF 免费在线工具 - 图 5

苏打PDF

SodaPDF OCR 是一款免费的在线 OCR 软件,可以从图像中提取文本。 这是一款 PDF OCR 转换工具,可将扫描文件、传真和其他打印输出转换为可编辑文本、PDF 和可搜索 PDF。 SodaPDF OCR 最常见的使用案例是将扫描文件或传真转换为可编辑的文件。 这是一款免费的在线 OCR 软件。 所有上传的文档都会在特定时间后从服务器上自动删除。它具有多种功能,如将 PDF 转换为 Word,然后可以使用 Microsoft Word 打开。

让我们看看如何使用 SodaPDF 对 PDF 执行 OCR:

  • 打开 苏打PDF 网站。
  • 单击 "Choose File(选择文件)"按钮,选择需要上传的 PDF 文档。
  • 上传后,它将为您提供一个编辑 PDF 文本和图像的用户界面。 您可以使用下载按钮下载文件。
    OCR from PDF 免费在线工具 - 图 6

IronOCR:.NET OCR 库

IronOCR 是 .NET Framework 中用于 OCR 的最佳库。 它提供了一个强大的 API 来处理文本和图像,并具有实时识别、字段检测、扫描 PDF 文件的光学字符识别等多种功能。 IronPDF 还可以编辑扫描文档。

IronOCR让开发人员在其应用程序中使用文本识别功能。 它可用于多种用途,如将扫描文件转换为数字格式或识别图像上的标题。 IronOCR .NET 库为 IronOCR SDK 提供了一个易于使用的底层接口。 除此之外,它还有一些功能,能让开发人员更方便地使用 IronOCR。 例如,该库包括一个图像处理管道,可自动处理低 DPI 图像并从 PDF 文档中提取文本。

让我们看看如何使用 OCR 工具对 PDF 文件进行 OCR 识别:

完整 PDF 文件的 OCR

以下代码可以对整个 PDF 文档执行 OCR。

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' OCR entire document
	Input.AddPdf("example.pdf", "password")

	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

PDF 选定页面的 OCR

您可以使用 "AddPdfPages "功能对选定的 PDF 页面进行 OCR 识别。

using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	' Alternatively OCR selected page numbers
	Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

将 PDF 转换为可搜索的 PDF

您可以使用 IronOcr 的 SaveAsSearchablePdf 功能将 PDF 文件转换为可搜索的 PDF 文件。

using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf", "password")

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf", "password")

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr

Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddPdf("scan.pdf", "password") Input.Deskew()

	Dim Result = Ocr.Read(Input)
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

结论

我们已经探索了几款优秀的光学字符识别软件工具。 这些工具允许您以编程方式识别文本并创建可搜索和可编辑的 PDF。

如果使用 .NET Framework 编写,我们推荐使用 IronOCR for .NET。 IronOCR 可让您在 .NET Framework 中轻松执行 OCR; 此外,译文还必须具有很强的可读性,即使在原始文件因水渍等原因受损或变形的情况下也能轻松使用。

另一个使用案例是将手工填写的旧纸质表格(如发票和销售收据)转换为数字版本。 这样,会计软件就可以自动处理这些文档,从而提高准确性和效率。

< 前一页
安装Tesseract(带图片的分步教程)
下一步 >
如何对PDF进行光学字符识别教程(免费在线工具)

准备开始了吗? 版本: 2024.11 刚刚发布

免费NuGet下载 总下载量: 2,791,504 查看许可证 >