PDF OCR文字提取

VB C#

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

using var ocrInput = new OcrInput();

// OCR entire document
ocrInput.LoadPdf("example.pdf", Password: "password");

int[] pages = { 1, 2, 3, 4, 5 };

// Alternatively OCR selected page numbers
ocrInput.LoadPdfPages("example.pdf", pages, Password: "password");

var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);

Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()

Private ocrInput = New OcrInput()

' OCR entire document
ocrInput.LoadPdf("example.pdf", Password:= "password")

Dim pages() As Integer = { 1, 2, 3, 4, 5 }

' Alternatively OCR selected page numbers
ocrInput.LoadPdfPages("example.pdf", pages, Password:= "password")

Dim ocrResult = ocrTesseract.Read(ocrInput)
Console.WriteLine(ocrResult.Text)

Install-Package IronOcr

PDF OCR文字提取

Iron Tesseract 支持读取多种图像格式以及 PDF 文档。常规的免费 Tesseract 引擎无法实现此功能。

OcrInput 提供了一项功能，可在扫描质量不佳时自动修正 PDF 的属性。

开发者可指定读取整个 PDF、选定页面或单个裁剪区域。

如何在 C# 中对 PDF 文件进行 OCR 处理

下载 C# 库以对 PDF 文件进行 OCR 处理
使用 AddPdf 方法添加 PDF 文档
使用 AddPdfPages 方法
请使用 Read 方法对添加的 PDF 文件进行 OCR 处理
查看QR码值 Barcodes 属性中。访问 Text 属性以获取 OCR 结果

C# PDF OCR

许多 OCR 工具在理想条件下运行良好，但当您需要一款能在任何条件下都具备更高稳定性和准确性的工具时，IronOCR 文本提取解决方案正是您的理想之选。

IronOCR 是一款专为文本提取而从零构建的工具，能够以 99% 的准确率转换真实图像。

IronTesseract，我们的原生 C# OCR 库，能够以近乎人类的方式从现实世界中的图像中识别字符，即使这些图像质量未必理想，甚至有时存在倾斜。

若扫描质量较差，我们的OCR功能可自动修正PDF或图像的特征。

随着我为您介绍目前业界顶尖的OCR解决方案，您将亲眼见证其卓越性能。

为何选择 IronOCR 进行图像或 PDF 文字识别？

若考量 IronOCR 解决方案在 Tesseract 管理方面的独特能力，选择它显然是明智之选，其优势包括：

IronOCR 这款用于 PDF 文本识别的引擎，在纯 .NET 环境中开箱即用
它不需要在您的计算机上安装 Tesseract。
它与最新版本的引擎配合得非常出色：Tesseract 5（以及 Tesseract 4 和 3）。
适用于任何 .NET 项目：.NET Framework 4.5 及以上版本、.NET Standard 2 及以上版本，以及 .NET Core 2、3 和 5！
与其他开源 Tesseract 版本相比，其准确性和速度均有所提升。
IronOCR 支持 Xamarin、Mono、Azure 和 Docker 开发平台。
您可以通过 NuGet 包管理复杂的 Tesseract 词典系统。
它能够从 PDF、多帧 TIFF 以及所有主流图像文件中提取文本，无需任何额外操作。
它能够修正质量低劣或倾斜的图像扫描件，从而在文本提取项目中获得最佳效果。

您有质量较差的扫描件吗？没问题！

在OCR任务方面，IronOCR表现尤为出色。实际上，许多同类产品仅针对机器打印的高分辨率完美文本或图像进行了优化，因此在实际应用中往往会出现不准确或无法正常运行的情况。然而，IronOCR 并非如此。

IronOCR 在修正质量欠佳的文档方面表现出色。它能够校正倾斜的扫描图像并增强低质量照片，使其成为可搜索的 PDF 文档或图像。这正是我们的产品脱颖而出的原因。

根据您的工作流程调整 IronOCR 的性能

借助 Iron Software 的 OCR 解决方案，您可以调整文本提取任务的性能，从而为工作流程找到最佳平衡点。我们深知这对许多用户和开发者至关重要，因此我们构建的OCR解决方案具备可调节的性能和高度的灵活性。

例如，影响 OCR 任务速度的一个非常重要的因素是输入图像的质量。当背景噪音较少且图像分辨率较高（200 dpi 是一个较佳范围）时，OCR 处理速度越快，识别结果也越准确。不过，借助 IronOCR 的性能调优功能，即使是图像质量较低的任务也能迅速完成。

此外，选择数字噪点较少的输入图像或扫描文本格式（如 PNG 或 TIFF），通常比 JPEG 等低质量图像格式能更快地获得结果。

安装 IronOCR 解决方案非常简单

Iron Software 套件非常易于安装和运行。该工具支持主流开发平台。我们的解决方案支持跨平台运行，涵盖 Windows、Linux、macOS、Azure、AWS 和 Docker —— 正因如此，C# 才使其成为开发者最青睐的 Tesseract OCR 引擎。

支持超过 125 种国际语言

对于OCR任务，当软件支持多种语言时，其实用性会显著提升。 IronOCR 解决方案之所以不可或缺，是因为它支持 125 种国际语言。这些语言可通过以 DLL 文件形式分发的语言包进行安装。用户可从本网站或 Visual Studio 的 NuGet 包管理器下载这些工具。

如何安装 OCR 语言包

支持 120 种语言。您可以通过以下两种方法下载其他 OCR 语言包：

安装 NuGet 包

在 NuGet 中搜索 IronOCR 语言。

使用 OCR 数据方法

下载 ocrdata 文件，并将其添加到您的 .NET 项目或程序文件中。

轻松将扫描文件或图像转换为可搜索文档

我们引以为豪的一项功能是，我们的 Tesseract 软件能够根据输入的图像或扫描的 PDF 文件，生成可搜索的 PDF 文档或可搜索的文本。您可以在 C# 和 VB.NET 中将 OCR 结果导出为可搜索的 PDF 文档。这对于企业和政府机构在数据库填充、搜索引擎优化（SEO）以及PDF处理方面大有裨益。