Przejdź do treści stopki
KORZYSTANIE Z IRONOCR
Wykorzystaj potencjał plików PDF z funkcją wyszukiwania dzięki IronOCR

Odblokowywanie możliwości przeszukiwalnych PDF-ów z IronOCR: Podsumowanie webinarium

Podczas webinarium "Usprawnianie konwersji dokumentów dzięki IronOCR" Chipego Kalinda (inżynier ds. sprzedaży oprogramowania) i Darren Steddy (kierownik ds. operacji sprzedaży) omówili trzy praktyczne zastosowania IronOCR, wykorzystując kod na żywo i rzeczywiste przykłady, pokazując, jak skuteczne i łatwe jest przekształcanie zeskanowanych plików PDF w dokumenty z możliwością wyszukiwania, zgodne z przepisami.

IronOCR pozwala firmom konwertować zeskanowane pliki PDF na dokumenty z możliwością wyszukiwania i zgodne z normami za pomocą zaledwie kilku linii kodu, automatyzując ekstrakcję danych i spełniając standardy dostępności, takie jak PDF/UA, w celu zapewnienia zgodności z przepisami i wydajności operacyjnej.

Jak sprawić, by pliki PDF były zgodne ze standardem PDF/UA?

Dłączego standardy PDF/UA mają znaczenie dla mojej firmy?

Wiele organizacji musi spełniać standardy dostępności i zgodności, takie jak PDF/UA — czy to w ramach wewnętrznych polityk, wymogów sektora publicznego, czy długoterminowej archiwizacji. Standard PDF/UA (Universal Accessibility) gwarantuje, że pliki PDF są w pełni dostępne dla użytkowników z niepełnosprawnościami, zwłaszcza tych korzystających z technologii wspomagających, takich jak czytniki ekranu. Nie chodzi tu tylko o zgodność z przepisami — chodzi o zapewnienie równego dostępu do informacji wszystkim użytkownikom, przy jednoczesnym uniknięciu potencjalnych problemów prawnych związanych z naruszeniami dostępności.

Co sprawia, że podejście IronOCR jest tak proste?

Chipego zademonstrowało, w jaki sposób IronOCR przekształca zwykły, niezgodny z normą plik PDF w dokument w pełni zgodny z PDF/UA za pomocą zaledwie kilku linii kodu.

using IronOcr;
using IronPdf;

// Initialize IronOCR
var ocr = new IronTesseract();

// Configure OCR for accessibility compliance
ocr.Configuration.ReadBarCodes = true;
ocr.Configuration.RenderSearchablePdf = true;

// Read the scanned PDF
using var input = new OcrInput();
input.AddPdf("scanned-document.pdf");

// Perform OCR and create searchable PDF/UA compliant document
var result = ocr.Read(input);
result.SaveAsSearchablePdf("compliant-output.pdf");
using IronOcr;
using IronPdf;

// Initialize IronOCR
var ocr = new IronTesseract();

// Configure OCR for accessibility compliance
ocr.Configuration.ReadBarCodes = true;
ocr.Configuration.RenderSearchablePdf = true;

// Read the scanned PDF
using var input = new OcrInput();
input.AddPdf("scanned-document.pdf");

// Perform OCR and create searchable PDF/UA compliant document
var result = ocr.Read(input);
result.SaveAsSearchablePdf("compliant-output.pdf");
Imports IronOcr
Imports IronPdf

' Initialize IronOCR
Dim ocr As New IronTesseract()

' Configure OCR for accessibility compliance
ocr.Configuration.ReadBarCodes = True
ocr.Configuration.RenderSearchablePdf = True

' Read the scanned PDF
Using input As New OcrInput()
    input.AddPdf("scanned-document.pdf")

    ' Perform OCR and create searchable PDF/UA compliant document
    Dim result = ocr.Read(input)
    result.SaveAsSearchablePdf("compliant-output.pdf")
End Using
$vbLabelText   $csharpLabel

Wynik został zweryfikowany za pomocą VeraPDF, narzędzia do sprawdzania zgodności z normami dostępności i archiwizacji. Ten etap walidacji ma kluczowe znaczenie dla organizacji, które muszą wykazać zgodność z wymógąmi audytowymi lub regulacyjnymi.

Kto najbardziej zyskuje na zgodności z PDF/UA?

Zgodność z PDF/UA gwarantuje, że użytkownicy z dysfunkcją wzroku mogą uzyskać dostęp do dokumentów za pomocą czytników ekranu, co wspiera zarówno zgodność z przepisami, jak i projektowanie sprzyjające integracji. Szczególne korzyści odnoszą agencje rządowe, instytucje edukacyjne i organizacje opieki zdrowotnej, ponieważ często mają one surowe wymagania dotyczące dostępności. Ponadto firmy prowadzące działalność w UE muszą przestrzegać europejskiego aktu o dostępności, co sprawia, że zgodność z PDF/UA jest niezbędna do uzyskania dostępu do rynku.

Demonstracja tworzenia plików PDF z możliwością wyszukiwania za pomocą IronOCR, pokazująca porównanie dokumentu przed i po przetworzeniu

Jak sprawić, by zeskanowane pliki PDF były przeszukiwalne?

Jakie problemy rozwiązuje to rozwiązanie?

Czy kiedykolwiek spotkałeś się ze skanem dokumentu, który wygląda jak plik PDF, ale zachowuje się jak obraz? W tym miejscu z pomocą przychodzi technologia OCR. Wiele firm boryka się z problemem archiwów dokumentów zawierających tysiące zeskanowanych plików PDF — pliki te zajmują miejsce na dysku, ale nie oferują możliwości wyszukiwania ani ekstrakcji danych. Bez OCR pracownicy tracą niezliczone godziny na ręczne przeszukiwanie dokumentów, co prowadzi do spadku wydajności i wzrostu kosztów operacyjnych.

Jak przebiega proces konwersji?

Chipego pokazało, w jaki sposób IronOCR przekształca zeskanowany plik PDF bez możliwości wyszukiwania w plik PDF z możliwością wyszukiwania, natychmiast udostępniając funkcje wyszukiwania pełnotekstowego. Proces ten obejmuje kilka złożonych etapów:

using IronOcr;

// Create a new OCR engine instance
var ocr = new IronTesseract();

// Configure language and accuracy settings
ocr.Language = OcrLanguage.English;
ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;

// Load the scanned PDF
using var input = new OcrInput();
input.AddPdf("invoice-scan.pdf");

// Apply image improve for better accuracy
input.DeNoise();
input.Deskew();
input.EnhanceResolution(225);

// Perform OCR and save as searchable PDF
var result = ocr.Read(input);
result.SaveAsSearchablePdf("searchable-invoice.pdf");

// Extract text for indexing
string extractedText = result.Text;
Console.WriteLine($"Extracted {extractedText.Length} characters");
using IronOcr;

// Create a new OCR engine instance
var ocr = new IronTesseract();

// Configure language and accuracy settings
ocr.Language = OcrLanguage.English;
ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;

// Load the scanned PDF
using var input = new OcrInput();
input.AddPdf("invoice-scan.pdf");

// Apply image improve for better accuracy
input.DeNoise();
input.Deskew();
input.EnhanceResolution(225);

// Perform OCR and save as searchable PDF
var result = ocr.Read(input);
result.SaveAsSearchablePdf("searchable-invoice.pdf");

// Extract text for indexing
string extractedText = result.Text;
Console.WriteLine($"Extracted {extractedText.Length} characters");
Imports IronOcr

' Create a new OCR engine instance
Dim ocr As New IronTesseract()

' Configure language and accuracy settings
ocr.Language = OcrLanguage.English
ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd

' Load the scanned PDF
Using input As New OcrInput()
    input.AddPdf("invoice-scan.pdf")

    ' Apply image improve for better accuracy
    input.DeNoise()
    input.Deskew()
    input.EnhanceResolution(225)

    ' Perform OCR and save as searchable PDF
    Dim result = ocr.Read(input)
    result.SaveAsSearchablePdf("searchable-invoice.pdf")

    ' Extract text for indexing
    Dim extractedText As String = result.Text
    Console.WriteLine($"Extracted {extractedText.Length} characters")
End Using
$vbLabelText   $csharpLabel

Po konwersji użytkownicy mogą znaleźć konkretne treści za pomocą skrótu Ctrl+F lub wyszukiwać według słów kluczowych, takich jak daty, nazwy lub tematy dokumentów. Silnik OCR w inteligentny sposób zachowuje oryginalny układ dokumentu, dodając jednocześnie niewidoczną warstwę tekstową, która umożliwia wyszukiwanie i zaznaczanie treści.

Które branże czerpią największe korzyści z plików PDF z funkcją wyszukiwania?

Idealny dla:

  • Kancelarie prawne zajmujące się aktami spraw i umowami
  • Podmioty świadczące usługi opieki zdrowotnej zarządzające dokumentacją pacjentów
  • Zespoły digitalizujące dokumentację papierową, potrzebujące szybkiego wyszukiwania treści
  • Instytucje finansowe do przetwarzania faktur i zapewnienia zgodności z przepisami
  • Firmy z branży nieruchomości zajmujące się digitalizacją dokumentów dotyczących nieruchomości

Według szacunków branżowych możliwość szybkiego wyszukiwania konkretnych informacji w dużych repozytoriach dokumentów może skrócić czas wyszukiwania nawet o 90%.

Interfejs IronOCR pokazujący funkcję wyodrębniania tekstu i wyszukiwania w przekonwertowanych plikach PDF

Jak mogę wyodrębnić określone dane z plików PDF?

Kiedy należy stosować ekstrakcję ukierunkowaną?

Dla firm przetwarzających duże ilości dokumentów ustrukturyzowanych, takich jak pokwitowania, zamówienia lub faktury, Chipego zademonstrowało, w jaki sposób IronOCR wyodrębnia dane z określonych obszarów plików PDF przy użyciu współrzędnych prostokąta ograniczającego. Takie ukierunkowane podejście jest szczególnie cenne w przypadku standardowych formularzy, w których kluczowe informacje pojawiają się w stałych miejscach — takich jak kwoty całkowite na fakturach, daty na umowach lub identyfikatory klientów na formularzach zamówień.

W jaki sposób przetwarzanie regionalne poprawia wydajność?

Zamiast przetwarzać cały plik, IronOCR skupia się wyłącznie na istotnych polach, takich jak numery zamówień, sumy lub adresy, co znacznie zwiększa szybkość działania i zmniejsza koszty związane z chmurą lub obliczeniami. Oto jak wdrożyć ekstrakcję ukierunkowaną:

using IronOcr;
using System.Drawing;

var ocr = new IronTesseract();

// Load PDF and define extraction regions
using var input = new OcrInput();
input.AddPdf("purchase-order.pdf", 1); // Process first page only

// Define bounding box for PO number field (x, y, width, height)
var poNumberArea = new Rectangle(450, 100, 150, 50);
input.AddPdfPage("purchase-order.pdf", 1, poNumberArea);

// Extract just the PO number
var result = ocr.Read(input);
string poNumber = result.Text.Trim();

// Define multiple regions for batch extraction
var regions = new Dictionary<string, Rectangle>
{
    { "PONumber", new Rectangle(450, 100, 150, 50) },
    { "TotalAmount", new Rectangle(450, 600, 150, 50) },
    { "VendorName", new Rectangle(50, 200, 300, 50) }
};

// Extract data from each region
var extractedData = new Dictionary<string, string>();
foreach (var region in regions)
{
    input.Clear();
    input.AddPdfPage("purchase-order.pdf", 1, region.Value);
    var regionResult = ocr.Read(input);
    extractedData[region.Key] = regionResult.Text.Trim();
}
using IronOcr;
using System.Drawing;

var ocr = new IronTesseract();

// Load PDF and define extraction regions
using var input = new OcrInput();
input.AddPdf("purchase-order.pdf", 1); // Process first page only

// Define bounding box for PO number field (x, y, width, height)
var poNumberArea = new Rectangle(450, 100, 150, 50);
input.AddPdfPage("purchase-order.pdf", 1, poNumberArea);

// Extract just the PO number
var result = ocr.Read(input);
string poNumber = result.Text.Trim();

// Define multiple regions for batch extraction
var regions = new Dictionary<string, Rectangle>
{
    { "PONumber", new Rectangle(450, 100, 150, 50) },
    { "TotalAmount", new Rectangle(450, 600, 150, 50) },
    { "VendorName", new Rectangle(50, 200, 300, 50) }
};

// Extract data from each region
var extractedData = new Dictionary<string, string>();
foreach (var region in regions)
{
    input.Clear();
    input.AddPdfPage("purchase-order.pdf", 1, region.Value);
    var regionResult = ocr.Read(input);
    extractedData[region.Key] = regionResult.Text.Trim();
}
Imports IronOcr
Imports System.Drawing

Dim ocr As New IronTesseract()

' Load PDF and define extraction regions
Using input As New OcrInput()
    input.AddPdf("purchase-order.pdf", 1) ' Process first page only

    ' Define bounding box for PO number field (x, y, width, height)
    Dim poNumberArea As New Rectangle(450, 100, 150, 50)
    input.AddPdfPage("purchase-order.pdf", 1, poNumberArea)

    ' Extract just the PO number
    Dim result = ocr.Read(input)
    Dim poNumber As String = result.Text.Trim()

    ' Define multiple regions for batch extraction
    Dim regions As New Dictionary(Of String, Rectangle) From {
        {"PONumber", New Rectangle(450, 100, 150, 50)},
        {"TotalAmount", New Rectangle(450, 600, 150, 50)},
        {"VendorName", New Rectangle(50, 200, 300, 50)}
    }

    ' Extract data from each region
    Dim extractedData As New Dictionary(Of String, String)()
    For Each region In regions
        input.Clear()
        input.AddPdfPage("purchase-order.pdf", 1, region.Value)
        Dim regionResult = ocr.Read(input)
        extractedData(region.Key) = regionResult.Text.Trim()
    Next
End Using
$vbLabelText   $csharpLabel

Takie ukierunkowane podejście pozwala skrócić czas przetwarzania o 70–80% w porównaniu z pełnostronicowym OCR, co czyni je idealnym rozwiązaniem w scenariuszach przetwarzania dużych ilości dokumentów.

Jakie są korzyści biznesowe?

Automatyzuje to powtarzalne zadania związane z wprowadzaniem danych, ograniczając nakład pracy ręcznej, poprawiając dokładność i uwalniając zespoły do wykonywania zadań o większej wartości. Firmy zgłaszają oszczędność 20–30 godzin tygodniowo wyłącznie na wprowadzaniu danych. Wyodrębnione dane mogą być automatycznie eksportowane do baz danych, integrowane z istniejącymi systemami lub uruchamiać zautomatyzowane przepływy pracy. Na przykład wyodrębnione sumy faktur mogą automatycznie aktualizować systemy księgowe, a wyodrębnione informacje o klientach mogą uzupełniać rekordy CRM bez ręcznej interwencji.

W jaki sposób IronOCR radzi sobie z automatyzacją na dużą skalę?

Czy IronOCR może przetwarzać wiele plików jednocześnie?

Podczas webinarium zaprezentowano pojedyncze przykłady kodu, jednak IronOCR jest przeznaczony do przetwarzania wsadowego na dużą skalę. Niezależnie od tego, czy konwertujesz setki, czy miliony plików, IronOCR łatwo integruje się z istniejącymi systemami. To rozwiązanie Enterprise obsługuje wielowątkowość i przetwarzanie rozproszone, umożliwiając organizacjom przetwarzanie tysięcy dokumentów na godzinę. Oto przykład przetwarzania wsadowego:

using IronOcr;
using System.IO;
using System.Threading.Tasks;

public async Task ProcessDocumentBatch(string folderPath)
{
    var ocr = new IronTesseract();
    ocr.Configuration.RenderSearchablePdf = true;

    // Get all PDF files in directory
    var pdfFiles = Directory.GetFiles(folderPath, "*.pdf");

    // Process files in parallel for maximum efficiency
    await Parallel.ForEachAsync(pdfFiles, async (file, ct) =>
    {
        using var input = new OcrInput();
        input.AddPdf(file);

        var result = await Task.Run(() => ocr.Read(input));

        // Save searchable version
        var outputPath = Path.Combine(folderPath, "searchable", Path.GetFileName(file));
        result.SaveAsSearchablePdf(outputPath);

        // Log processing results
        Console.WriteLine($"Processed: {file} - {result.Pages.Length} pages");
    });
}
using IronOcr;
using System.IO;
using System.Threading.Tasks;

public async Task ProcessDocumentBatch(string folderPath)
{
    var ocr = new IronTesseract();
    ocr.Configuration.RenderSearchablePdf = true;

    // Get all PDF files in directory
    var pdfFiles = Directory.GetFiles(folderPath, "*.pdf");

    // Process files in parallel for maximum efficiency
    await Parallel.ForEachAsync(pdfFiles, async (file, ct) =>
    {
        using var input = new OcrInput();
        input.AddPdf(file);

        var result = await Task.Run(() => ocr.Read(input));

        // Save searchable version
        var outputPath = Path.Combine(folderPath, "searchable", Path.GetFileName(file));
        result.SaveAsSearchablePdf(outputPath);

        // Log processing results
        Console.WriteLine($"Processed: {file} - {result.Pages.Length} pages");
    });
}
Imports IronOcr
Imports System.IO
Imports System.Threading.Tasks

Public Async Function ProcessDocumentBatch(folderPath As String) As Task
    Dim ocr As New IronTesseract()
    ocr.Configuration.RenderSearchablePdf = True

    ' Get all PDF files in directory
    Dim pdfFiles = Directory.GetFiles(folderPath, "*.pdf")

    ' Process files in parallel for maximum efficiency
    Await Task.WhenAll(pdfFiles.Select(Function(file) Task.Run(Async Function()
                                                                  Using input As New OcrInput()
                                                                      input.AddPdf(file)

                                                                      Dim result = Await Task.Run(Function() ocr.Read(input))

                                                                      ' Save searchable version
                                                                      Dim outputPath = Path.Combine(folderPath, "searchable", Path.GetFileName(file))
                                                                      result.SaveAsSearchablePdf(outputPath)

                                                                      ' Log processing results
                                                                      Console.WriteLine($"Processed: {file} - {result.Pages.Length} pages")
                                                                  End Using
                                                              End Function)))
End Function
$vbLabelText   $csharpLabel

Jakie opcje wsparcia są dostępne?

Potrzebujesz pomocy? Iron Software zapewnia wsparcie techniczne przez czat i e-mail 24 godziny na dobę, 5 dni w tygodniu, abyś mógł szybko rozpocząć pracę. W skład zespołu wsparcia wchodzą specjaliści ds. OCR, którzy mogą pomóc w ulepszeniu konkretnego przypadku użycia, niezależnie od tego, czy masz do czynienia z trudnymi typami dokumentów, wieloma językami czy złożonymi wymaganiami integracyjnymi. Plus dokumentacja kompletna i przykłady kodu pomagają programistom w samodzielnym wdrażaniu rozwiązań.

Chcesz, aby Twoje pliki PDF były przeszukiwalne, zgodne z normami i gotowe do automatyzacji?

IronOCR przekształca przetwarzanie dokumentów z ręcznego wąskiego gardła w zautomatyzowany przepływ pracy. Dzięki obsłudze ponad 125 języków, zaawansowanemu przetwarzaniu wstępnemu obrazów i płynnej obsłudze plików PDF jest to kompletne rozwiązanie do nowoczesnego zarządzania dokumentami. Niezależnie od tego, czy chcesz zapewnić zgodność z przepisami, umożliwić wyszukiwanie czy wyodrębnić kluczowe dane, IronOCR oferuje profesjonalne funkcje OCR z wdrożeniem przyjaznym dla programistów.

Zapoznaj się z pełną dokumentacją IronOCR i zacznij już dziś:

Wypróbuj 30-dniowy okres próbny

Często Zadawane Pytania

Jak mogę przekonwertować zeskanowany plik PDF na dokument z możliwością wyszukiwania?

Możesz użyć IronOCR do konwersji zeskanowanego pliku PDF bez funkcji wyszukiwania na dokument z pełną funkcją wyszukiwania. Dzięki zastosowaniu technologii OCR umożliwia on wyszukiwanie pełnotekstowe, pozwalając na znalezienie konkretnych treści przy użyciu słów kluczowych lub fraz.

Jakie są korzyści z dostosowania plików PDF do standardów PDF/UA?

Dostosowanie plików PDF do standardów PDF/UA zapewnia dostępność dla użytkowników z dysfunkcją wzroku korzystających z czytników ekranu. IronOCR może konwertować niezgodne pliki PDF na dokumenty zgodne z PDF/UA za pomocą zaledwie kilku linii kodu, co jest weryfikowane przez narzędzia takie jak VeraPDF.

W jaki sposób IronOCR pomaga w ukierunkowanym pozyskiwaniu danych z plików PDF?

IronOCR może wyodrębniać dane z określonych obszarów pliku PDF przy użyciu współrzędnych ramki ograniczającej. Ta funkcja jest szczególnie przydatna w przypadku dokumentów ustrukturyzowanych, takich jak faktury lub paragony, pozwalając skupić się na istotnych polach i poprawić wydajność przetwarzania.

Jaka jest rola IronOCR w automatyzacji zadań związanych z przetwarzaniem dokumentów?

IronOCR jest przeznaczony do przetwarzania wsadowego na dużą skalę, co czyni go idealnym rozwiązaniem do automatyzacji zadań związanych z konwersją dokumentów. Potrafi efektywnie obsługiwać duże ilości plików, płynnie integrując się z istniejącymi systemami w celu usprawnienia przepływu pracy.

Kto zyskuje na konwersji zeskanowanych plików PDF do formatów umożliwiających wyszukiwanie?

Organizacje takie jak kancelarie prawne i placówki służby zdrowia czerpią korzyści z konwersji zeskanowanych plików PDF do formatów umożliwiających wyszukiwanie. Umożliwia to szybkie wyszukiwanie treści w rozległych archiwach, upraszczając proces pozyskiwania informacji.

Jakie opcje wsparcia są dostępne dla użytkowników wdrażających IronOCR?

Iron Software oferuje wsparcie techniczne 24/5 poprzez czat i e-mail, aby pomóc użytkownikom we wdrażaniu IronOCR. Wsparcie to gwarantuje, że użytkownicy mogą efektywnie zarządzać projektami konwersji dokumentów i rozwiązywać wszelkie problemy techniczne.

Jak mogę zapewnić sukces projektu konwersji dokumentów?

Aby zapewnić sukces, skorzystaj z IronOCR ze względu na jego solidne funkcje i skorzystaj z pomocy technicznej zapewnianej przez Iron Software. Uzyskaj dostęp do pełnej dokumentacji na ich oficjalnej stronie internetowej i rozważ skorzystanie z 30-dniowego okresu próbnego, aby poznać możliwości tego narzędzia.

Kannaopat Udonpant
Inżynier oprogramowania
Zanim stał się inżynierem oprogramowania, Kannapat ukończył doktorat z zasobów środowiskowych na Uniwersytecie Hokkaido w Japonii. W czasie studiowania, Kannapat również został członkiem Laboratorium Robotyki Pojazdów, które jest częścią Wydziału Inżynierii Bioprodukcji. W 2022 roku wykorzystał swoje umiejętności w ...
Czytaj więcej

Zespol wsparcia Iron

Jestesmy online 24 godziny, 5 dni w tygodniu.
Czat
Email
Zadzwon do mnie