如何阅读 PDF
PDF 是 "便携式文档格式 "的缩写。它是由 Adobe 公司开发的一种文件格式,可以保留任何源文件的字体、图像、图形和布局,而与创建文件时使用的应用程序和平台无关。PDF 文件通常用于共享和查看格式一致的文档,与用于打开文档的软件或硬件无关。IronOcr 可轻松处理各种版本的 PDF 文档。
如何阅读 PDF
- 下载用于阅读 PDF 的 C# 库
- 准备 PDF 文档以供阅读
- 构建 OcrPdfInput 对象的 PDF 文件路径
- 采用
读取
方法对导入的 PDF 文件执行 OCR 识别 - 读取 specific pages by providing the page indices list
开始在您的项目中使用IronPDF,并立即获取免费试用。
查看 IronOCR 上 Nuget 用于快速安装和部署。它有超过800万次下载,正在使用C#改变OCR。
Install-Package IronOcr
考虑安装 IronOCR DLL 直接。下载并手动安装到您的项目或GAC表单中: IronOcr.zip
手动安装到你的项目中
下载DLL阅读 PDF 示例
首先实例化 IronTesseract 类以执行 OCR。然后,利用 "using "语句创建一个 OcrPdfInput 对象,并向其传递 PDF 文件路径。最后,使用 "Read "方法执行 OCR。
:path=/static-assets/ocr/content-code-examples/how-to/input-pdfs-read-pdf.cs
using IronOcr;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Add PDF
using var pdfInput = new OcrPdfInput("Potter.pdf");
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(pdfInput);
Imports IronOcr
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Add PDF
Private pdfInput = New OcrPdfInput("Potter.pdf")
' Perform OCR
Private ocrResult As OcrResult = ocrTesseract.Read(pdfInput)
在大多数情况下,无需指定 DPI 属性。不过,在构建 OcrPdfInput 时提供一个高 DPI 数字可以提高阅读精度。
阅读 PDF 页示例
从 PDF 文档中读取特定页面时,用户可以指定要导入的页面索引号。为此,请在构建 OcrPdfInput 时将页面索引列表传递给 PageIndices 参数。请记住,页面索引使用基于零的编号。
:path=/static-assets/ocr/content-code-examples/how-to/input-pdfs-read-pdf-pages.cs
using IronOcr;
using System.Collections.Generic;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Create page indices list
List<int> pageIndices = new List<int>() { 0, 2 };
// Add PDF
using var pdfInput = new OcrPdfInput("Potter.pdf", PageIndices: pageIndices);
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(pdfInput);
Imports IronOcr
Imports System.Collections.Generic
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Create page indices list
Private pageIndices As New List(Of Integer)() From {0, 2}
' Add PDF
Private pdfInput = New OcrPdfInput("Potter.pdf", PageIndices:= pageIndices)
' Perform OCR
Private ocrResult As OcrResult = ocrTesseract.Read(pdfInput)
指定扫描区域
通过缩小要读取的区域,可以大大提高读取效率。要做到这一点,你可以在导入的 PDF 中指定需要读取的精确区域。在下面的代码示例中,我指示 IronOcr 专注于提取章节编号和标题。
:path=/static-assets/ocr/content-code-examples/how-to/input-pdfs-read-specific-region.cs
using IronOcr;
using IronSoftware.Drawing;
using System;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Specify crop regions
Rectangle[] scanRegions = { new Rectangle(550, 100, 600, 300) };
// Add PDF
using (var pdfInput = new OcrPdfInput("Potter.pdf", ContentAreas: scanRegions))
{
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(pdfInput);
// Output the result to console
Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports IronSoftware.Drawing
Imports System
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Specify crop regions
Private scanRegions() As Rectangle = { New Rectangle(550, 100, 600, 300) }
' Add PDF
Using pdfInput = New OcrPdfInput("Potter.pdf", ContentAreas:= scanRegions)
' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(pdfInput)
' Output the result to console
Console.WriteLine(ocrResult.Text)
End Using