如何閱讀 PDF
PDF代表“便攜式文件格式”。它是Adobe開發的一種文件格式,無論源文件是使用哪種應用程序和平台創建的,都能保留字體、圖像、圖形和布局。 PDF 文件通常用於以一致的格式共享和查看文件,無論使用什麼軟件或硬件打開它。 IronOcr 輕鬆處理各種版本的 PDF 文件。
開始使用IronOCR
立即在您的專案中使用IronOCR,並享受免費試用。
如何閱讀 PDF
- 下載讀取PDF的C#庫
- 準備 PDF 文件以供閱讀
- 構建 OcrPdfInput object與PDF檔案路徑
- 使用
讀取
在導入的 PDF 上執行 OCR 的方法 - 通過提供頁索引列表來讀取特定頁面
讀取 PDF 範例
首先實例化 IronTesseract 類以執行 OCR。 然後,使用 'using' 語句來創建一個 OcrPdfInput 對象,並將 PDF 文件路徑傳遞給它。 最後,使用 Read
方法執行 OCR。
:path=/static-assets/ocr/content-code-examples/how-to/input-pdfs-read-pdf.cs
using IronOcr;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Add PDF
using var pdfInput = new OcrPdfInput("Potter.pdf");
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(pdfInput);
Imports IronOcr
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Add PDF
Private pdfInput = New OcrPdfInput("Potter.pdf")
' Perform OCR
Private ocrResult As OcrResult = ocrTesseract.Read(pdfInput)
在大多數情況下,無需指定DPI屬性。 然而,在建構OcrPdfInput時提供高DPI數字可以提高讀取精度。
閱讀PDF頁面示例
在讀取PDF文件的特定頁面時,用戶可以指定要導入的頁面索引號。 要執行此操作,請在構建 OcrPdfInput 時將頁面索引列表傳遞給 PageIndices 參數。 請記住,頁面索引使用從零開始的編號。
:path=/static-assets/ocr/content-code-examples/how-to/input-pdfs-read-pdf-pages.cs
using IronOcr;
using System.Collections.Generic;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Create page indices list
List<int> pageIndices = new List<int>() { 0, 2 };
// Add PDF
using var pdfInput = new OcrPdfInput("Potter.pdf", PageIndices: pageIndices);
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(pdfInput);
Imports IronOcr
Imports System.Collections.Generic
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Create page indices list
Private pageIndices As New List(Of Integer)() From {0, 2}
' Add PDF
Private pdfInput = New OcrPdfInput("Potter.pdf", PageIndices:= pageIndices)
' Perform OCR
Private ocrResult As OcrResult = ocrTesseract.Read(pdfInput)
指定掃描區域
通過縮小要閱讀的區域,您可以顯著提高閱讀效率。 要實現這一點,您可以指定需要讀取的導入PDF的精確區域。 在下面的代碼示例中,我已指示IronOCR專注於僅提取章節號和標題。
:path=/static-assets/ocr/content-code-examples/how-to/input-pdfs-read-specific-region.cs
using IronOcr;
using IronSoftware.Drawing;
using System;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Specify crop regions
Rectangle[] scanRegions = { new Rectangle(550, 100, 600, 300) };
// Add PDF
using (var pdfInput = new OcrPdfInput("Potter.pdf", ContentAreas: scanRegions))
{
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(pdfInput);
// Output the result to console
Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports IronSoftware.Drawing
Imports System
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Specify crop regions
Private scanRegions() As Rectangle = { New Rectangle(550, 100, 600, 300) }
' Add PDF
Using pdfInput = New OcrPdfInput("Potter.pdf", ContentAreas:= scanRegions)
' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(pdfInput)
' Output the result to console
Console.WriteLine(ocrResult.Text)
End Using