Wie man PDFs liest
PDF steht für "Portable Document Format" Es ist ein von Adobe entwickeltes Dateiformat, das die Schriftarten, Bilder, Grafiken und das Layout eines jeden Quelldokuments bewahrt, unabhängig von der Anwendung und der Plattform, mit der es erstellt wurde. PDF-Dateien werden in der Regel für die gemeinsame Nutzung und Anzeige von Dokumenten in einem einheitlichen Format verwendet, unabhängig von der zum Öffnen verwendeten Software oder Hardware. IronOcr verarbeitet verschiedene Versionen von PDF-Dokumenten mit Leichtigkeit.
Legen Sie los mit IronOCR
Beginnen Sie noch heute mit der Verwendung von IronOCR in Ihrem Projekt mit einer kostenlosen Testversion.
Wie man PDFs liest
- Eine C#-Bibliothek zum Lesen von PDFs herunterladen
- Das PDF-Dokument zum Lesen vorbereiten
- Konstruieren Sie die OcrPdfInput objekt mit PDF-Dateipfad
- Verwenden Sie die
Lesen Sie
methode zur Durchführung von OCR in der importierten PDF-Datei - Lesen Sie bestimmte Seiten, indem Sie die Liste der Seitenindizes bereitstellen
PDF-Beispiel lesen
Beginnen Sie mit der Instanziierung der IronTesseract-Klasse, um OCR durchzuführen. Verwenden Sie dann eine 'using'-Anweisung, um ein OcrPdfInput-Objekt zu erstellen, und übergeben Sie ihm den Pfad zur PDF-Datei. Führen Sie schließlich die OCR mit der Methode "Lesen" durch.
:path=/static-assets/ocr/content-code-examples/how-to/input-pdfs-read-pdf.cs
using IronOcr;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Add PDF
using var pdfInput = new OcrPdfInput("Potter.pdf");
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(pdfInput);
Imports IronOcr
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Add PDF
Private pdfInput = New OcrPdfInput("Potter.pdf")
' Perform OCR
Private ocrResult As OcrResult = ocrTesseract.Read(pdfInput)
In den meisten Fällen ist es nicht notwendig, die DPI-Eigenschaft anzugeben. Die Angabe einer hohen DPI-Zahl bei der Erstellung von OcrPdfInput kann jedoch die Lesegenauigkeit verbessern.
PDF-Seiten lesen Beispiel
Beim Lesen bestimmter Seiten aus einem PDF-Dokument kann der Benutzer die Seitenindexnummer für den Import angeben. Dazu übergeben Sie die Liste der Seitenindizes an den Parameter PageIndices, wenn Sie den OcrPdfInput konstruieren. Beachten Sie, dass Seitenindizes eine auf Null basierende Nummerierung verwenden.
:path=/static-assets/ocr/content-code-examples/how-to/input-pdfs-read-pdf-pages.cs
using IronOcr;
using System.Collections.Generic;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Create page indices list
List<int> pageIndices = new List<int>() { 0, 2 };
// Add PDF
using var pdfInput = new OcrPdfInput("Potter.pdf", PageIndices: pageIndices);
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(pdfInput);
Imports IronOcr
Imports System.Collections.Generic
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Create page indices list
Private pageIndices As New List(Of Integer)() From {0, 2}
' Add PDF
Private pdfInput = New OcrPdfInput("Potter.pdf", PageIndices:= pageIndices)
' Perform OCR
Private ocrResult As OcrResult = ocrTesseract.Read(pdfInput)
Scanbereich festlegen
Wenn Sie den zu lesenden Bereich eingrenzen, können Sie die Leseeffizienz erheblich steigern. Zu diesem Zweck können Sie den genauen Bereich der importierten PDF-Datei angeben, der gelesen werden soll. Im folgenden Codebeispiel habe ich IronOCR angewiesen, sich ausschließlich auf die Extraktion der Kapitelnummer und des Titels zu konzentrieren.
:path=/static-assets/ocr/content-code-examples/how-to/input-pdfs-read-specific-region.cs
using IronOcr;
using IronSoftware.Drawing;
using System;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Specify crop regions
Rectangle[] scanRegions = { new Rectangle(550, 100, 600, 300) };
// Add PDF
using (var pdfInput = new OcrPdfInput("Potter.pdf", ContentAreas: scanRegions))
{
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(pdfInput);
// Output the result to console
Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports IronSoftware.Drawing
Imports System
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Specify crop regions
Private scanRegions() As Rectangle = { New Rectangle(550, 100, 600, 300) }
' Add PDF
Using pdfInput = New OcrPdfInput("Potter.pdf", ContentAreas:= scanRegions)
' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(pdfInput)
' Output the result to console
Console.WriteLine(ocrResult.Text)
End Using