Wyodrębnianie danych tabel z zeskanowanych obrazów za pomocą IronOCR: Podsumowanie demonstracji na żywo
Extracting data from scanned images is a common challenge, especially when it involves structured data like tables. With IronOCR's advanced machine learning capabilities, you can now seamlessly extract table data including cell values and their positions. In this demo, Shadman Majid, Software Sales Engineer, walks through the code implementation step-by-step, while Anne Lazarakis, Sales and Marketing Director, shares real-world use cases from Iron Software customers.
Real-World Use Cases

Explained by Anne Lazarakis, Sales and Marketing Director*
Insurance Claim Processing (Opyn Market)
In the highly regulated healthcare insurance industry in the U.S., companies like Opyn Market still receive many documents via fax. These scanned documents often contain tabular data that must be accurately extracted and entered into internal systems. With IronOCR, they're able to automate this process, reducing manual work and eliminating the potential for human error.
Logistics & Food Distribution (iPAP)
iPAP, the largest cheese distributor in the U.S., uses IronOCR to manage over 200 client orders. Their invoices come in various formats with inconsistent table layouts. IronOCR helps them extract purchase order numbers, shipment dates, and item details from scanned documents efficiently, even with varied formatting. This automation has saved them between $40,000 and $45,000 annually.

Technical Overview

Live Coding Session With Shadman Majid, Software Sales Engineer*
IronOCR uses proprietary machine learning models to detect and extract table data from scanned documents. This feature supports:
- Extraction of table cells and coordinates
- OCR of scanned images and multi-frame PDFs
- Compatibility with C#, VB.NET, .NET Standard, .NET Framework, and .NET Core

To access this functionality, you'll need:
IronOCRNuGet packageIronOcr.Extensions.AdvancedScanningNuGet package for table detection via ML models
These packages include the trained ML models necessary for table structure detection and accurate OCR.
Example Code for Extracting Tables
Below is a sample C# code snippet that demonstrates how to use IronOCR for extracting table data from images:
// Import the necessary IronOCR namespaces
using IronOcr;
// Initialize the IronTesseract to handle OCR processes
var Ocr = new IronTesseract();
// Load the image containing the table
using (var input = new OcrInput("invoice.jpg"))
{
// Perform OCR and extract text data including tables
var result = Ocr.Read(input);
// Iterate through each page in the document
foreach (var page in result.Pages)
{
// Iterate through each table found on the page
foreach (var table in page.Tables)
{
Console.WriteLine("Table found:");
// Iterate through each row in the table
foreach (var row in table.Rows)
{
// Convert the row of cells to a comma-separated string
var cells = string.Join(", ", row.Cells.Select(cell => cell.Text));
Console.WriteLine(cells);
}
}
}
}
// Import the necessary IronOCR namespaces
using IronOcr;
// Initialize the IronTesseract to handle OCR processes
var Ocr = new IronTesseract();
// Load the image containing the table
using (var input = new OcrInput("invoice.jpg"))
{
// Perform OCR and extract text data including tables
var result = Ocr.Read(input);
// Iterate through each page in the document
foreach (var page in result.Pages)
{
// Iterate through each table found on the page
foreach (var table in page.Tables)
{
Console.WriteLine("Table found:");
// Iterate through each row in the table
foreach (var row in table.Rows)
{
// Convert the row of cells to a comma-separated string
var cells = string.Join(", ", row.Cells.Select(cell => cell.Text));
Console.WriteLine(cells);
}
}
}
}
' Import the necessary IronOCR namespaces
Imports IronOcr
' Initialize the IronTesseract to handle OCR processes
Private Ocr = New IronTesseract()
' Load the image containing the table
Using input = New OcrInput("invoice.jpg")
' Perform OCR and extract text data including tables
Dim result = Ocr.Read(input)
' Iterate through each page in the document
For Each page In result.Pages
' Iterate through each table found on the page
For Each table In page.Tables
Console.WriteLine("Table found:")
' Iterate through each row in the table
For Each row In table.Rows
' Convert the row of cells to a comma-separated string
Dim cells = String.Join(", ", row.Cells.Select(Function(cell) cell.Text))
Console.WriteLine(cells)
Next row
Next table
Next page
End Using
- Loading an Image: The script begins by initializing the IronTesseract engine and loading an image file named
invoice.jpgthat you want to process. - OCR Execution: It performs OCR on the input to extract text data, particularly focusing on any tables.
- Table Extraction: The script iterates through each detected table and its rows, outputting cell contents in a structured way.
Ensure you have installed the necessary NuGet packages for IronOCR before running this script.
Conclusion
IronOCR makes it easy to automate the extraction of complex table data from scanned documents. Whether you're in healthcare, logistics, finance, or manufacturing, this solution offers reliability, accuracy, and cost-saving efficiency. With just a few lines of code, you can eliminate manual data entry and reduce human error.
Want to see it in action? Book a live Demo with one of our engineers here.
Często Zadawane Pytania
Jak mogę wyodrębnić dane z tabel ze skanowanych obrazów przy użyciu języka C#?
Możesz skorzystać z zaawansowanych możliwości uczenia maszynowego IronOCR, aby wyodrębnić dane z tabel ze skanowanych obrazów. Proces ten polega na użyciu silnika IronTesseract do przeprowadzenia OCR na obrazie i wyodrębnienia informacji, w tym wartości komórek i ich współrzędnych.
Jakie są praktyczne zastosowania wyodrębniania danych tabelarycznych ze skanowanych dokumentów?
Praktyczne zastosowania obejmują automatyzację przetwarzania roszczeń ubezpieczeniowych poprzez wyodrębnianie danych tabelarycznych z dokumentów przesyłanych faksem oraz zarządzanie zamówieniami klientów w logistyce, gdzie faktury mają różne formaty i niespójny układ tabel, co pokazują takie firmy jak Opyn Market i iPAP.
Jakie możliwości techniczne oferuje IronOCR w zakresie ekstrakcji danych z tabel?
IronOCR oferuje takie funkcje, jak wyodrębnianie komórek tabel i współrzędnych, OCR zeskanowanych obrazów i wielokadrowych plików PDF oraz kompatybilność z C#, VB.NET, .NET Standard, .NET Framework i .NET Core.
Jakie kroki obejmuje kod służący do wyodrębniania danych z tabel przy użyciu IronOCR?
Proces obejmuje zainicjowanie silnika IronTesseract, załadowanie obrazu, wykonanie OCR w celu wyodrębnienia danych tekstowych oraz iterację przez każdą wykrytą tabelę i jej wiersze w celu wygenerowania zawartości komórek.
Jakie pakiety są wymagane do wyodrębniania danych z tabel za pomocą IronOCR?
Aby korzystać z wyszkolonych modeli ML niezbędnych do wykrywania tabel i dokładnego OCR, potrzebny jest pakiet IronOCR NuGet wraz z pakietem IronOcr.Extensions.AdvancedScanning.
W jaki sposób IronOCR zwiększa wydajność w branży opieki zdrowotnej i logistyki?
IronOCR ogranicza nakład pracy ręcznej i ryzyko błędów ludzkich poprzez automatyzację procesu pozyskiwania złożonych danych tabelarycznych ze skanowanych dokumentów, zapewniając znaczną poprawę wydajności i oszczędności kosztów w branżach takich jak opieka zdrowotna i logistyka.
Czy mogę obejrzeć prezentację możliwości IronOCR na żywo?
Tak, możesz zarezerwować prezentację na żywo z jednym z inżynierów Iron Software, aby zobaczyć IronOCR w akcji i dowiedzieć się więcej o jego możliwościach w zakresie wyodrębniania danych z tabel.



