Wie man PDFs liest

This article was translated from English: Does it need improvement?
Translated
View the article in English

von Chaknith Bin

PDF steht für "Portable Document Format" Es ist ein von Adobe entwickeltes Dateiformat, das die Schriftarten, Bilder, Grafiken und das Layout eines jeden Quelldokuments bewahrt, unabhängig von der Anwendung und der Plattform, mit der es erstellt wurde. PDF-Dateien werden in der Regel für die gemeinsame Nutzung und Anzeige von Dokumenten in einem einheitlichen Format verwendet, unabhängig von der zum Öffnen verwendeten Software oder Hardware. IronOcr verarbeitet verschiedene Versionen von PDF-Dokumenten mit Leichtigkeit.

Legen Sie los mit IronOCR

Beginnen Sie noch heute mit der Verwendung von IronOCR in Ihrem Projekt mit einer kostenlosen Testversion.

Erster Schritt:
green arrow pointer



PDF-Beispiel lesen

Beginnen Sie mit der Instanziierung der IronTesseract-Klasse, um OCR durchzuführen. Verwenden Sie dann eine 'using'-Anweisung, um ein OcrPdfInput-Objekt zu erstellen, und übergeben Sie ihm den Pfad zur PDF-Datei. Führen Sie schließlich die OCR mit der Methode "Lesen" durch.

:path=/static-assets/ocr/content-code-examples/how-to/input-pdfs-read-pdf.cs
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Add PDF
using var pdfInput = new OcrPdfInput("Potter.pdf");
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(pdfInput);
Imports IronOcr

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Add PDF
Private pdfInput = New OcrPdfInput("Potter.pdf")
' Perform OCR
Private ocrResult As OcrResult = ocrTesseract.Read(pdfInput)
VB   C#
PDF-Datei lesen

In den meisten Fällen ist es nicht notwendig, die DPI-Eigenschaft anzugeben. Die Angabe einer hohen DPI-Zahl bei der Erstellung von OcrPdfInput kann jedoch die Lesegenauigkeit verbessern.

PDF-Seiten lesen Beispiel

Beim Lesen bestimmter Seiten aus einem PDF-Dokument kann der Benutzer die Seitenindexnummer für den Import angeben. Dazu übergeben Sie die Liste der Seitenindizes an den Parameter PageIndices, wenn Sie den OcrPdfInput konstruieren. Beachten Sie, dass Seitenindizes eine auf Null basierende Nummerierung verwenden.

:path=/static-assets/ocr/content-code-examples/how-to/input-pdfs-read-pdf-pages.cs
using IronOcr;
using System.Collections.Generic;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Create page indices list
List<int> pageIndices = new List<int>() { 0, 2 };

// Add PDF
using var pdfInput = new OcrPdfInput("Potter.pdf", PageIndices: pageIndices);
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(pdfInput);
Imports IronOcr
Imports System.Collections.Generic

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Create page indices list
Private pageIndices As New List(Of Integer)() From {0, 2}

' Add PDF
Private pdfInput = New OcrPdfInput("Potter.pdf", PageIndices:= pageIndices)
' Perform OCR
Private ocrResult As OcrResult = ocrTesseract.Read(pdfInput)
VB   C#

Scanbereich festlegen

Wenn Sie den zu lesenden Bereich eingrenzen, können Sie die Leseeffizienz erheblich steigern. Zu diesem Zweck können Sie den genauen Bereich der importierten PDF-Datei angeben, der gelesen werden soll. Im folgenden Codebeispiel habe ich IronOCR angewiesen, sich ausschließlich auf die Extraktion der Kapitelnummer und des Titels zu konzentrieren.

:path=/static-assets/ocr/content-code-examples/how-to/input-pdfs-read-specific-region.cs
using IronOcr;
using IronSoftware.Drawing;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Specify crop regions
Rectangle[] scanRegions = { new Rectangle(550, 100, 600, 300) };

// Add PDF
using (var pdfInput = new OcrPdfInput("Potter.pdf", ContentAreas: scanRegions))
{
    // Perform OCR
    OcrResult ocrResult = ocrTesseract.Read(pdfInput);

    // Output the result to console
    Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports IronSoftware.Drawing
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Specify crop regions
Private scanRegions() As Rectangle = { New Rectangle(550, 100, 600, 300) }

' Add PDF
Using pdfInput = New OcrPdfInput("Potter.pdf", ContentAreas:= scanRegions)
	' Perform OCR
	Dim ocrResult As OcrResult = ocrTesseract.Read(pdfInput)

	' Output the result to console
	Console.WriteLine(ocrResult.Text)
End Using
VB   C#

OCR-Ergebnis

Spezifische Region lesen
Chaknith related to OCR-Ergebnis

Chaknith Bin

Software-Ingenieur

Chaknith ist der Sherlock Holmes der Entwickler. Zum ersten Mal kam ihm der Gedanke, dass er eine Zukunft in der Softwareentwicklung haben könnte, als er zum Spaß an Code Challenges teilnahm. Sein Schwerpunkt liegt auf IronXL und IronBarcode, aber er ist stolz darauf, Kunden mit jedem Produkt zu helfen. Chaknith nutzt sein Wissen aus direkten Gesprächen mit Kunden, um die Produkte selbst weiter zu verbessern. Sein anekdotisches Feedback geht über Jira-Tickets hinaus und unterstützt die Produktentwicklung, die Dokumentation und das Marketing, um das Gesamterlebnis der Kunden zu verbessern.Wenn er nicht im Büro ist, lernt er über maschinelles Lernen, programmiert und wandert.