Wie man PDFs in OCR C# liest

How to Read PDFs

This article was translated from English: Does it need improvement?
Translated
View the article in English

PDF steht für "Portable Document Format". Es ist ein Dateiformat, das von Adobe entwickelt wurde, um die Schriftarten, Bilder, Grafiken und das Layout eines Quelldokuments unabhängig von der verwendeten Anwendung und Plattform zu erhalten. PDF-Dateien werden typischerweise zum Teilen und Anzeigen von Dokumenten in einem konsistenten Format verwendet, unabhängig von der verwendeten Software oder Hardware. IronOcr verarbeitet mühelos verschiedene Versionen von PDF-Dokumenten.

Schnellstart: Eine PDF-Datei in Sekundenschnelle mit OCR bearbeiten

Richten Sie OCR schnell mit IronOCR ein, indem Sie ein OcrPdfInput erstellen, das auf Ihr PDF verweist, und dann Read aufrufen – keine komplexe Konfiguration erforderlich. Dieses einzeilige Beispiel zeigt, wie einfach es ist, mit IronOCR Text aus einem PDF zu extrahieren.

Nuget IconGet started making PDFs with NuGet now:

  1. Install IronOCR with NuGet Package Manager

    PM > Install-Package IronOcr

  2. Copy and run this code snippet.

    using var result = new IronOcr.IronTesseract().Read(new IronOcr.OcrPdfInput("document.pdf", PdfContents.TextAndImages));
  3. Deploy to test on your live environment

    Start using IronOCR in your project today with a free trial
    arrow pointer
class="hsg-featured-snippet">

Minimaler Arbeitsablauf (5 Schritte)

  1. Laden Sie eine C#-Bibliothek zum Lesen von PDFs herunter
  2. Bereiten Sie das PDF-Dokument zum Lesen vor
  3. Konstruktion des OcrPdfInput-Objekts mit PDF-Dateipfad
  4. Verwenden Sie die Read-Methode, um OCR auf das importierte PDF durchzuführen
  5. Lesen Sie bestimmte Seiten, indem Sie die Liste der Seitenindizes angeben


PDF-Lese-Beispiel

Beginnen Sie mit der Instanziierung der IronTesseract-Klasse, um OCR durchzuführen. Verwenden Sie dann eine 'using'-Anweisung, um ein OcrPdfInput-Objekt zu erstellen, und übergeben Sie den PDF-Dateipfad. Führen Sie schließlich OCR mit der Read-Methode durch.

:path=/static-assets/ocr/content-code-examples/how-to/input-pdfs-read-pdf.cs
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Add PDF
using var pdfInput = new OcrPdfInput("Potter.pdf");
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(pdfInput);
Imports IronOcr

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Add PDF
Private pdfInput = New OcrPdfInput("Potter.pdf")
' Perform OCR
Private ocrResult As OcrResult = ocrTesseract.Read(pdfInput)
$vbLabelText   $csharpLabel
class="content-img-align-center">
class="center-image-wrapper"> PDF-Datei lesen

In den meisten Fällen gibt es keine Notwendigkeit, die DPI-Eigenschaft anzugeben. Das Angeben einer hohen DPI-Zahl beim Erstellen von OcrPdfInput kann jedoch die Lesegenauigkeit verbessern.

Beispiel für das Lesen von PDF-Seiten

Beim Lesen bestimmter Seiten aus einem PDF-Dokument kann der Benutzer die Seitenindexnummer für den Import angeben. Um dies zu tun, übergeben Sie die Liste der Seitenindizes an den PageIndices-Parameter beim Erstellen des OcrPdfInput. Bedenken Sie, dass bei Seitenindizes nullbasierte Nummerierung verwendet wird.

:path=/static-assets/ocr/content-code-examples/how-to/input-pdfs-read-pdf-pages.cs
using IronOcr;
using System.Collections.Generic;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Create page indices list
List<int> pageIndices = new List<int>() { 0, 2 };

// Add PDF
using var pdfInput = new OcrPdfInput("Potter.pdf", PageIndices: pageIndices);
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(pdfInput);
Imports IronOcr
Imports System.Collections.Generic

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Create page indices list
Private pageIndices As New List(Of Integer)() From {0, 2}

' Add PDF
Private pdfInput = New OcrPdfInput("Potter.pdf", PageIndices:= pageIndices)
' Perform OCR
Private ocrResult As OcrResult = ocrTesseract.Read(pdfInput)
$vbLabelText   $csharpLabel

Scanbereich angeben

Indem Sie den zu lesenden Bereich eingrenzen, können Sie die Leseeffizienz erheblich steigern. Um dies zu erreichen, können Sie den genauen Bereich des importierten PDFs angeben, der gelesen werden soll. Im untenstehenden Code-Beispiel habe ich IronOcr angewiesen, sich ausschließlich auf die Extraktion der Kapitelnummer und des Titels zu konzentrieren.

:path=/static-assets/ocr/content-code-examples/how-to/input-pdfs-read-specific-region.cs
using IronOcr;
using IronSoftware.Drawing;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Specify crop regions
Rectangle[] scanRegions = { new Rectangle(550, 100, 600, 300) };

// Add PDF
using (var pdfInput = new OcrPdfInput("Potter.pdf", ContentAreas: scanRegions))
{
    // Perform OCR
    OcrResult ocrResult = ocrTesseract.Read(pdfInput);

    // Output the result to console
    Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports IronSoftware.Drawing
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Specify crop regions
Private scanRegions() As Rectangle = { New Rectangle(550, 100, 600, 300) }

' Add PDF
Using pdfInput = New OcrPdfInput("Potter.pdf", ContentAreas:= scanRegions)
	' Perform OCR
	Dim ocrResult As OcrResult = ocrTesseract.Read(pdfInput)

	' Output the result to console
	Console.WriteLine(ocrResult.Text)
End Using
$vbLabelText   $csharpLabel

OCR-Ergebnis

class="content-img-align-center">
class="center-image-wrapper"> Einen bestimmten Bereich lesen

Häufig gestellte Fragen

Wie kann ich eine PDF-Datei in C# lesen?

Sie können eine PDF-Datei in C# mit IronOCR lesen. Beginnen Sie damit, die IronTesseract-Klasse zu instanziieren, und verwenden Sie dann eine 'using'-Anweisung, um ein OcrPdfInput-Objekt mit dem Dateipfad zu erstellen. Schließlich wenden Sie die Read-Methode an, um OCR auf das Dokument durchzuführen.

Welche Schritte sind erforderlich, um OCR auf bestimmten Seiten eines PDFs durchzuführen?

Um OCR auf bestimmten Seiten eines PDFs mit IronOCR durchzuführen, übergeben Sie eine Liste von Seitenindizes an den PageIndices-Parameter, wenn Sie das OcrPdfInput konstruieren. Seitenindizes in IronOCR sind nullbasiert, sodass die erste Seite mit 0 indiziert wird.

Wie kann ich die Genauigkeit der OCR auf PDFs verbessern?

Sie können die Genauigkeit der OCR auf PDFs in IronOCR verbessern, indem Sie eine hohe DPI während der Konstruktion des OcrPdfInput angeben. Obwohl normalerweise nicht notwendig, kann eine höhere DPI die Lesegenauigkeit verbessern.

Ist es möglich, einen bestimmten Bereich eines PDFs für die OCR-Verarbeitung auszuwählen?

Ja, mit IronOCR können Sie einen bestimmten Bereich eines PDFs für die OCR-Verarbeitung auswählen, indem Sie die SelectRegion-Methode verwenden. Dies ermöglicht es Ihnen, sich auf das Extrahieren von Inhalten aus einem definierten Bereich zu konzentrieren und die Effizienz zu verbessern.

Was ist die Bedeutung von nullbasierter Nummerierung beim Lesen von PDF-Seiten?

In IronOCR wird die nullbasierte Nummerierung verwendet, um Seitenindizes beim Lesen von PDF-Seiten anzugeben. Das bedeutet, dass die erste Seite mit 0 indiziert wird, was hilft, genau anzugeben, welche Seiten verarbeitet werden sollen.

Muss ich Ressourcen manuell verwalten, wenn ich OCR auf PDFs durchführe?

Bei der Verwendung von IronOCR wird empfohlen, eine 'using'-Anweisung zu verwenden, wenn Sie mit OcrInput-Objekten arbeiten. Dadurch wird sichergestellt, dass Ressourcen nach Abschluss des OCR-Prozesses ordnungsgemäß freigegeben werden.

Wie kann ich mit der Nutzung von IronOCR zum Lesen von PDFs beginnen?

Um mit IronOCR zum Lesen von PDFs zu beginnen, laden Sie die C#-Bibliothek von NuGet herunter, bereiten Sie Ihr PDF vor, konstruieren Sie ein OcrPdfInput-Objekt mit dem Dateipfad und verwenden Sie die Read-Methode für die OCR-Verarbeitung.

Curtis Chau
Technischer Autor

Curtis Chau hat einen Bachelor-Abschluss in Informatik von der Carleton University und ist spezialisiert auf Frontend-Entwicklung mit Expertise in Node.js, TypeScript, JavaScript und React. Leidenschaftlich widmet er sich der Erstellung intuitiver und ästhetisch ansprechender Benutzerschnittstellen und arbeitet gerne mit modernen Frameworks sowie der Erstellung gut strukturierter, optisch ansprechender ...

Weiterlesen
Rezensiert von
Jeff Fritz
Jeffrey T. Fritz
Principal Program Manager - .NET Community Team
Jeff ist außerdem Principal Program Manager für das .NET- und Visual Studio-Team. Er ist der ausführende Produzent der .NET Conf Virtual Conference Series und moderiert ‚Fritz and Friends‘, einen Livestream für Entwickler, der zweimal wöchentlich ausgestrahlt wird. Dort spricht er über Technik und schreibt gemeinsam mit den Zuschauern Code. Jeff schreibt Workshops, Präsentationen und plant Inhalte für die größten Microsoft-Entwicklerveranstaltungen, einschließlich Microsoft Build, Microsoft Ignite, .NET Conf und dem Microsoft MVP Summit.
Bereit anzufangen?
Nuget Downloads 5,044,537 | Version: 2025.11 gerade veröffentlicht