OCR工具

从PDF进行OCR(免费在线工具)

发布 2023年一月15日
分享:

光学字符识别或 OCR 是一种用于识别图像中文本的技术。该技术用于扫描印刷文本或图像文件,并在计算机上进行识别。这是因为如今很多东西都是数字化的,比如电子邮件或书籍。不过,OCR 技术已经发展得更加复杂,其专门算法能够识别多种不同字体的文本,即使这些文本已经被噪音或其他常见失真(如 JPEG 压缩)所扭曲。OCR 还能读取纸张上的笔迹,准确率高达 98%。

使用 OCR 扫描的文本可以进行编辑、索引、搜索、打印和存档。OCR 软件广泛应用于医疗保健、制药、保险和法律行业。它有助于将纸质文档转换为数字文档,从而可以更方便地重复使用和与他人共享。

让我们来看看如何使用不同的工具对 PDF 文件进行 OCR 识别。

Adobe Acrobat Pro

Adobe 是最初开发 PDF 的公司。他们提供了一个快速、高效的 OCR 引擎,可以编辑任何 PDF 文档。它是市场上功能最强大的 OCR 引擎之一,如果你有大量 PDF 文档需要编辑,Adobe Acrobat DC 就是你应该购买的软件。该软件的设计方式使其可以非常准确地将任何基于文本的文档转换为 PDF 格式。它还能使用自定义字体生成器保留原始文档的字体。

让我们看看如何使用 Adobe Acrobat 进行 PDF OCR:

  • 在 Adobe Acrobat Pro DC 中打开文件。
  • 点击右窗格中的 "编辑 PDF "选项。
PDF OCR 免费在线工具 - 图 1

  • 它可以利用 OCR 功能将 PDF 文件转换为可编辑的 PDF 文件。
  • 现在,您可以轻松编辑文档中的任何文本并更改图像文件。
PDF OCR 免费在线工具 - 图 2

  • 您可以选择 "文件 > 另存为 "来保存文件,并为新的 PDF 文档命名。

您可以一次轻松执行多个扫描 PDF 文档的 OCR。

Sejda

Sejda 是一款支持 OCR 的 PDF 编辑软件,可以托管在云端,也可以作为桌面应用程序下载到 macOS、Windows 或 Linux。Sejda 允许用户压缩、编辑、数字签名、合并和填写 PDF 文件。例如,JPEG 和 Excel 等各种格式的文件都可以转化为 PDF 文件。PDF 文件同样可以转换成 Word 和 PowerPoint 文档等其他格式。让我们看看如何使用 Sejda OCR 对 PDF 文档进行 OCR 识别。

  • 打开 塞伊达 OCR 网站.
  • 点击 "上传 PDF 文件 "按钮上传文件,或从电脑中拖放文件。
  • 上传后,您将看到上传的文件名。选择文件语言。
OCR from PDF 免费在线工具 - 图 3

  • 选择语言后,您必须选择输出格式。您可以选择 "PDF "或 "文本"。设置好输出格式后,点击 "识别所有页面上的文本 "按钮。它就会开始提取文本。
OCR from PDF 免费在线工具 - 图 4

  • 处理完成后,您可以下载提取的文本。
OCR from PDF 免费在线工具 - 图 5

苏打 PDF

苏打 PDF OCR 是一款免费在线 OCR 软件,可从图像中提取文本。它是一款 PDF OCR 转换工具,可将扫描文件、传真和其他打印输出转换为可编辑文本、PDF 和可搜索 PDF。最常使用的情况是将扫描文件或传真转换成可编辑的文件。这是一款免费的在线 OCR 软件。所有上传的文档会在特定时间后自动从服务器上删除。它具有多种功能,如将 PDF 转换为 Word,然后可使用 Microsoft Word 打开。

让我们看看如何使用 苏打PDF 对 PDF 执行 OCR:

  • 打开 苏打PDF 网站。
  • 点击 "Choose File(选择文件)"按钮,选择需要上传的 PDF 文件。
  • 上传后,它将为你提供一个编辑 PDF 文本和图像的用户界面。您可以使用 "下载 "按钮下载文件。
OCR from PDF 免费在线工具 - 图 6

IronOCR:.NET OCR 库

IronOCR 是 .NET Framework 中最好的 OCR 库。它提供了处理文本和图像的强大 API,以及实时识别、字段检测、扫描 PDF 文件的光学字符识别等多种功能。IronPDF 还能编辑扫描文档。

IronOCR 为开发人员的应用程序提供了强大的文本识别功能。它可用于多种用途,如将扫描文档转换为数字格式或识别图像上的标题。IronOCR .NET Library 为 IronOCR SDK 提供了一个易于使用的底层接口。此外,它还具有一些功能,能让开发人员更方便地使用 IronOCR。例如,该库包含一个图像处理管道,可自动处理低 DPI 图像并从 PDF 文档中提取文本。

让我们看看如何使用 OCR 工具对 PDF 文件进行 OCR 识别:

完整 PDF 文件的 OCR

以下代码可对整个 PDF 文档执行 OCR。

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' OCR entire document
	Input.AddPdf("example.pdf", "password")

	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

PDF 选定页面的 OCR

您可以使用 "AddPdfPages "功能对选定的 PDF 页面进行 OCR 识别。

using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	' Alternatively OCR selected page numbers
	Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

将 PDF 转换为可搜索 PDF

您可以使用 IronOCR 的 "SaveAsSearchablePdf "函数将 PDF 文件转换为可搜索的 PDF 文件。

using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf", "password")

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf", "password")

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr

Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddPdf("scan.pdf", "password") Input.Deskew()

	Dim Result = Ocr.Read(Input)
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

结论

我们已经探索了几款优秀的光学字符识别软件工具。通过这些工具,您可以以编程方式识别文本,并创建可搜索和可编辑的 PDF 文件。

如果使用 .NET Framework 编写文档,我们推荐使用 IronOCR。IronOCR 可以让你在 .NET Framework 中轻松执行 OCR;它功能强大,即使在原始文档已损坏或变形(如水渍)的情况下也能轻松使用。

另一个用例是将手工填写的旧纸质表格(如发票和销售收据)转换为数字版本。这样,会计软件就能自动处理这些文件,从而提高准确性和效率。

< 前一页
安装Tesseract(带图片的分步教程)
下一步 >
如何对PDF进行光学字符识别教程(免费在线工具)

准备开始了吗? 版本: 2024.9 刚刚发布

免费NuGet下载 总下载量: 2,370,043 查看许可证 >