如何閱讀 PDF
PDF 代表「便攜式文檔格式」。這是一種由 Adobe 開發的文件格式,無論創建的應用程序和平台如何,它都能保留源文檔的字體、圖像、圖形和佈局。PDF 文件通常用於以一致的格式共享和查看文檔,無論打開它所使用的軟件或硬件為何。IronOCR 可以輕鬆處理各種版本的 PDF 文檔。
如何閱讀 PDF
- 下載讀取PDF的C#庫
- 準備 PDF 文件以供閱讀
- 構建 OcrPdfInput object與PDF檔案路徑
- 使用
讀取
在導入的 PDF 上執行 OCR 的方法 - 讀取 specific pages by providing the page indices list
立即開始在您的專案中使用IronPDF,並享受免費試用。
查看 IronOCR 上 Nuget 快速安裝和部署。已被下載超過800萬次,它正用C#改變OCR。
Install-Package IronOcr
請考慮安裝 IronOCR DLL 直接下載並手動安裝到您的專案或GAC表單: IronOcr.zip
手動安裝到您的項目中
下載DLL讀取 PDF 範例
首先,實例化 IronTesseract 類別以執行光學字符識別 (OCR)。接著,使用 'using' 聲明創建一個 OcrPdfInput 對象,並傳遞 PDF 文件路徑給它。最後,使用 Read
方法來執行 OCR。
:path=/static-assets/ocr/content-code-examples/how-to/input-pdfs-read-pdf.cs
using IronOcr;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Add PDF
using var pdfInput = new OcrPdfInput("Potter.pdf");
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(pdfInput);
Imports IronOcr
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Add PDF
Private pdfInput = New OcrPdfInput("Potter.pdf")
' Perform OCR
Private ocrResult As OcrResult = ocrTesseract.Read(pdfInput)
在大多數情況下,不需要指定 DPI 屬性。然而,在構建 OcrPdfInput 時提供高 DPI 數字可以提高閱讀準確性。
讀取 PDF 頁面的範例
當讀取 PDF 文件中的特定頁面時,用戶可以指定要匯入的頁面索引號。為此,請在構建 OcrPdfInput 時將頁面索引列表傳遞給 PageIndices 參數。請記住,頁面索引使用的是從零開始的編號。
:path=/static-assets/ocr/content-code-examples/how-to/input-pdfs-read-pdf-pages.cs
using IronOcr;
using System.Collections.Generic;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Create page indices list
List<int> pageIndices = new List<int>() { 0, 2 };
// Add PDF
using var pdfInput = new OcrPdfInput("Potter.pdf", PageIndices: pageIndices);
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(pdfInput);
Imports IronOcr
Imports System.Collections.Generic
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Create page indices list
Private pageIndices As New List(Of Integer)() From {0, 2}
' Add PDF
Private pdfInput = New OcrPdfInput("Potter.pdf", PageIndices:= pageIndices)
' Perform OCR
Private ocrResult As OcrResult = ocrTesseract.Read(pdfInput)
指定掃描區域
透過縮小要讀取的區域,您可以顯著提高讀取效率。為此,您可以指定需要讀取的導入 PDF 的確切區域。在下面的代碼範例中,我已經指示 IronOCR 僅專注於提取章節編號和標題。
:path=/static-assets/ocr/content-code-examples/how-to/input-pdfs-read-specific-region.cs
using IronOcr;
using IronSoftware.Drawing;
using System;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Specify crop regions
Rectangle[] scanRegions = { new Rectangle(550, 100, 600, 300) };
// Add PDF
using (var pdfInput = new OcrPdfInput("Potter.pdf", ContentAreas: scanRegions))
{
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(pdfInput);
// Output the result to console
Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports IronSoftware.Drawing
Imports System
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Specify crop regions
Private scanRegions() As Rectangle = { New Rectangle(550, 100, 600, 300) }
' Add PDF
Using pdfInput = New OcrPdfInput("Potter.pdf", ContentAreas:= scanRegions)
' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(pdfInput)
' Output the result to console
Console.WriteLine(ocrResult.Text)
End Using