Ir para o conteúdo do rodapé
UTILIZANDO O IRONOCR
HTML para PDF: um tutorial rápido para C# .NET

Extraindo dados de tabelas de imagens digitalizadas usando o IronOCR: Resumo da demonstração ao vivo

Extrair dados de imagens escaneadas é um desafio comum, especialmente quando envolve dados estruturados como tabelas. Com as capacidades avançadas de aprendizado de máquina do IronOCR, você pode agora extrair dados de tabelas sem esforço, incluindo valores de células e suas posições. Nesta demonstração, Shadman Majid, Engenheiro de Vendas de Software, explica a implementação do código passo a passo, enquanto Anne Lazarakis, Diretora de Vendas e Marketing, compartilha casos de uso do mundo real dos clientes da Iron Software.

Casos de Uso do Mundo Real

Ironocr Extract Table Data 4 related to Casos de Uso do Mundo Real

Explicado por Anne Lazarakis, Diretora de Vendas e Marketing*

Processamento de Sinistros de Seguro (Opyn Market)

Na indústria de seguros de saúde altamente regulamentada nos EUA, empresas como Opyn Market ainda recebem muitos documentos via fax. Esses documentos escaneados frequentemente contêm dados tabulares que devem ser extraídos com precisão e inseridos em sistemas internos. Com o IronOCR, eles conseguem automatizar esse processo, reduzindo o trabalho manual e eliminando o potencial de erro humano.

Logística e Distribuição de Alimentos (iPAP)

iPAP, o maior distribuidor de queijo nos EUA, usa o IronOCR para gerenciar mais de 200 pedidos de clientes. Suas faturas vêm em vários formatos com layouts de tabelas inconsistentes. IronOCR os ajuda a extrair números de pedidos de compra, datas de envio e detalhes de itens de documentos escaneados de forma eficiente, mesmo com formatação variada. Essa automação economizou entre $40.000 e $45.000 anualmente.

Ironocr Extract Table Data 2 related to Logística e Distribuição de Alimentos (iPAP)


Visão Geral Técnica

Ironocr Extract Table Data 5 related to Visão Geral Técnica

Sessão de Codificação Ao Vivo Com Shadman Majid, Engenheiro de Vendas de Software*

IronOCR usa modelos proprietários de aprendizado de máquina para detectar e extrair dados de tabelas de documentos escaneados. Este recurso suporta:

  • Extração de células de tabela e coordenadas
  • OCR de imagens escaneadas e PDFs de múltiplas páginas
  • Compatibilidade com C#, VB.NET, .NET Standard, .NET Framework e .NET Core

Ironocr Extract Table Data 3 related to Visão Geral Técnica

Para acessar essa funcionalidade, você precisará:

Esses pacotes incluem os modelos de ML treinados necessários para a detecção da estrutura de tabelas e OCR preciso.

Exemplo de Código para Extração de Tabelas

Abaixo está um exemplo de trecho de código C# que demonstra como usar o IronOCR para extrair dados de tabelas de imagens:

// Import the necessary IronOCR namespaces
using IronOcr;

// Initialize the IronTesseract to handle OCR processes
var Ocr = new IronTesseract();

// Load the image containing the table
using (var input = new OcrInput("invoice.jpg"))
{
    // Perform OCR and extract text data including tables
    var result = Ocr.Read(input);

    // Iterate through each page in the document
    foreach (var page in result.Pages)
    {
        // Iterate through each table found on the page
        foreach (var table in page.Tables)
        {
            Console.WriteLine("Table found:");
            // Iterate through each row in the table
            foreach (var row in table.Rows)
            {
                // Convert the row of cells to a comma-separated string
                var cells = string.Join(", ", row.Cells.Select(cell => cell.Text));
                Console.WriteLine(cells);
            }
        }
    }
}
// Import the necessary IronOCR namespaces
using IronOcr;

// Initialize the IronTesseract to handle OCR processes
var Ocr = new IronTesseract();

// Load the image containing the table
using (var input = new OcrInput("invoice.jpg"))
{
    // Perform OCR and extract text data including tables
    var result = Ocr.Read(input);

    // Iterate through each page in the document
    foreach (var page in result.Pages)
    {
        // Iterate through each table found on the page
        foreach (var table in page.Tables)
        {
            Console.WriteLine("Table found:");
            // Iterate through each row in the table
            foreach (var row in table.Rows)
            {
                // Convert the row of cells to a comma-separated string
                var cells = string.Join(", ", row.Cells.Select(cell => cell.Text));
                Console.WriteLine(cells);
            }
        }
    }
}
$vbLabelText   $csharpLabel
  • Carregando uma Imagem: O script começa inicializando o mecanismo IronTesseract e carregando um arquivo de imagem chamado invoice.jpg que você deseja processar.
  • Execução do OCR: Ele realiza OCR na entrada para extrair dados de texto, focando particularmente em qualquer tabela.
  • Extração de Tabelas: O script percorre cada tabela detectada e suas linhas, exibindo o conteúdo das células de forma estruturada.

Certifique-se de ter instalado os pacotes NuGet necessários para IronOCR antes de executar este script.


Conclusão

IronOCR torna fácil automatizar a extração de dados complexos de tabelas de documentos escaneados. Quer você esteja na área da saúde, logística, finanças ou manufatura, esta solução oferece confiabilidade, precisão e eficiência de economia de custos. Com apenas algumas linhas de código, você pode eliminar a entrada manual de dados e reduzir erros humanos.

Quer ver em ação? Agende uma demonstração ao vivo com um de nossos engenheiros aqui.

Perguntas frequentes

Como posso extrair dados de tabelas de imagens digitalizadas usando C#?

Você pode usar os recursos avançados de aprendizado de máquina do IronOCR para extrair dados de tabelas a partir de imagens digitalizadas. O processo envolve o uso do mecanismo IronTesseract para realizar o OCR na imagem e extrair informações, incluindo valores de células e suas coordenadas.

Quais são algumas aplicações práticas da extração de dados tabulares de documentos digitalizados?

Aplicações práticas incluem a automatização do processamento de sinistros de seguros através da extração de dados tabulares de documentos enviados por fax e a gestão de encomendas de clientes na área da logística, onde as faturas chegam em vários formatos com layouts de tabelas inconsistentes, como demonstrado por empresas como a Opyn Market e a iPAP.

Quais são as funcionalidades técnicas que o IronOCR oferece para extração de dados de tabelas?

O IronOCR oferece funcionalidades como a extração de células e coordenadas de tabelas, OCR de imagens digitalizadas e PDFs com múltiplos quadros, além de compatibilidade com C#, VB.NET, .NET Standard, .NET Framework e .NET Core.

Quais são os passos envolvidos no código para extrair dados de uma tabela usando o IronOCR?

O processo envolve inicializar o mecanismo IronTesseract , carregar a imagem, realizar o OCR para extrair os dados de texto e iterar por cada tabela detectada e suas linhas para gerar o conteúdo das células.

Quais pacotes são necessários para extrair dados de tabelas com o IronOCR?

Você precisa do pacote NuGet IronOCR juntamente com o pacote IronOcr.Extensions.AdvancedScanning para utilizar os modelos de aprendizado de máquina treinados necessários para a detecção de tabelas e OCR preciso.

Como o IronOCR aumenta a eficiência nos setores de saúde e logística?

O IronOCR reduz o trabalho manual e os erros humanos ao automatizar a extração de dados complexos de tabelas a partir de documentos digitalizados, oferecendo eficiência substancial e economia de custos para setores como saúde e logística.

Posso ver uma demonstração ao vivo das capacidades do IronOCR?

Sim, você pode agendar uma demonstração ao vivo com um dos engenheiros da Iron Software para ver o IronOCR em ação e saber mais sobre seus recursos de extração de dados de tabelas.

Kannaopat Udonpant
Engenheiro de Software
Antes de se tornar Engenheiro de Software, Kannapat concluiu um doutorado em Recursos Ambientais pela Universidade de Hokkaido, no Japão. Durante o doutorado, Kannapat também integrou o Laboratório de Robótica Veicular, que faz parte do Departamento de Engenharia de Bioprodução. Em 2022, ele utilizou suas habilidades ...
Leia mais

Iron Support Team

We're online 24 hours, 5 days a week.
Chat
Email
Call Me