Ir para o conteúdo do rodapé
COMPARAR COM OUTROS COMPONENTES

Uma comparação entre IronOCR e Syncfusion OCR

Este artigo comparará duas bibliotecas de software que usam reconhecimento óptico de caracteres (OCR) para automatizar a detecção e extração de texto impresso de imagens e de documentos digitalizados. Primeiro, discutiremos as funcionalidades de ambas as bibliotecas. Em seguida, examinaremos e compararemos suas capacidades de reconhecimento e extração de texto usando código-fonte de exemplo produzido com ambas as bibliotecas. Finalmente, compararemos as licenças e preços das bibliotecas.

As bibliotecas que compararemos neste artigo são:

  • IronOCR
  • Syncfusion Essential PDF

1. Syncfusion OCR

A biblioteca Essential PDF da Syncfusion incorpora funcionalidades de OCR para permitir o processamento de texto em imagens digitalizadas dentro de documentos PDF.

O processador de OCR da Syncfusion pode trabalhar com as versões 3 (3.02 e 3.05) e 4 do Tesseract. A biblioteca pode ser incluída em aplicações .NET Core e ASP.NET.

Recursos da Funcionalidade de OCR do SyncFusion Essential PDF incluem:

  • Realize tarefas de OCR em documentos PDF. A classe OCRProcessor da biblioteca pode ser usada para executar OCR em arquivos PDF. É baseado no processador de dados Tesseract, que é conhecido por ser um dos melhores processadores de OCR do mundo.
  • Executar Tarefas de OCR em Partes de Documentos PDF. Os usuários podem fazer OCR em páginas ou áreas específicas de um documento PDF.
  • Executar Tarefas de OCR em Imagens. Os usuários podem extrair dados textuais de imagens para importação em outras aplicações.
  • Suporte Multilíngue. O motor Google Tesseract (por extensão, Syncfusion) atualmente suporta mais de 60 idiomas e está experimentando muitos mais.
  • Boa Precisão. Aproveitando o motor de código aberto Tesseract do Google, o Syncfusion Essential PDF atinge uma precisão de texto muito boa, realizando OCR em um tempo razoável.

2. IronOCR

O IronOCR é uma biblioteca de software C# que permite que desenvolvedores da plataforma .NET reconheçam e leiam texto de imagens e documentos PDF. É uma biblioteca de OCR exclusiva for .NET que usa o poderoso motor Tesseract. As versões 3 - 5 do Tesseract funcionam perfeitamente no Windows, macOS, Linux, Azure, AWS, Lambda, Mono, e Xamarin Mac.

O IronOCR abrange mais idiomas do que qualquer outro motor de OCR disponível, suportando 125 idiomas (apenas o inglês está instalado por padrão).

Os desenvolvedores .NET têm controle total sobre seus documentos, podendo modificá-los conforme acharem apropriado.

2.1. Funcionalidades do IronOCR

O IronOCR oferece uma combinação única de capacidades e funcionalidades para integrar, assinar, exportar, ler visuais e extrair detalhes de fotos, independentemente do conhecimento técnico do usuário ou da sofisticação do hardware.

2.1.1. Precisão

O SDK IronOCR supera outras bibliotecas de OCR em termos de precisão, com uma taxa de 99,8 por cento.

2.1.2. Corrigindo Scans e Imagens de Baixa Qualidade

A classe IronOCR fornece controle extensivo para desenvolvedores C#. Ela oferece aos desenvolvedores funcionalidades de OCR (imagens e PDF para texto) e desempenho ajustado em cada instância específica.

O IronOCR inclui opções de configuração que permitem à biblioteca processar imagens que não estejam de qualidade ideal. Algumas dessas configurações incluem: Limpar Ruído de Fundo, Melhorar Contraste, Melhorar Resolução, Idioma, Estratégia, Girar e Alinhar, Espaço de Cor, Detectar Texto Branco em Fundos Escuros e Tipo de Imagem de Entrada.

2.1.3. Idiomas

O IronOCR suporta mais de 125 idiomas internacionais.

2.1.4. Extração de Texto OCR

O Iron Tesseract pode ler vários formatos de imagem, bem como arquivos PDF. Este recurso não está disponível com motores Tesseract gratuitos padrão. Se suas digitalizações forem de baixa qualidade, a entrada OCR permite corrigir automaticamente os atributos necessários.

2.1.5. Filtros de Otimização de Imagem

A classe OCRInput fornece aos programadores C# controle granular sobre a entrada. A entrada da imagem é posteriormente pré-processada por desenvolvedores para velocidade e precisão. Isso elimina a necessidade de usar Scripts de Lote do Photoshop ou ImageMagick para preparar fotografias antes do processamento OCR.

2.1.6. Região OCR de uma Imagem

O IronOCR permite que seus usuários finais realizem OCR em áreas específicas de uma imagem.

2.1.7. Classe OCRResult

IronOCR retorna um objeto de resultado avançado para cada página que escaneia usando Tesseract 3, 4 ou 5. Isso contém dados de localização, imagens, texto, confiança estatística, opções de símbolo alternativas, nomes de fontes, tamanhos de fontes, decoração, pesos de fontes e uma posição para cada um dos seguintes:

  • Páginas
  • Parágrafos
  • Linhas de Texto
  • Palavras
  • Caracteres Individuais
  • Códigos de Barras

2.1.8. Múltiplos Idiomas em um Documento

O IronOCR permite que desenvolvedores usem vários idiomas em um único documento. Esta capacidade é extremamente benéfica para prestadores de serviços .NET.

3. Começando um Novo Projeto no Visual Studio

Neste artigo, usaremos um novo Aplicativo de Console do Visual Studio para demonstrar as capacidades de processamento OCR tanto do IronOCR quanto do Syncfusion Essential PDF.

Abra o software Visual Studio, vá ao menu de arquivo e selecione Novo Projeto. Em seguida, selecione Aplicativo de Console.

Insira o nome do projeto e selecione o caminho na caixa de texto apropriada. Em seguida, clique no botão de criar e selecione o .NET framework necessário, como na captura de tela abaixo:

A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 1

O projeto Visual Studio agora gerará a estrutura para o novo aplicativo de console. O arquivo program.cs será aberto após a conclusão.

A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 2

Agora, adicionaremos ambas as bibliotecas ao projeto.

4. Instale a Biblioteca IronOCR

A biblioteca IronOCR pode ser baixada e instalada de quatro maneiras. Estes são:

  1. Usando o Gerenciador de Pacotes NuGet do Visual Studio
  2. Download direto da página do NuGet.
  3. Download direto da página do IronOCR.
  4. Usando a Linha de Comando do Visual Studio.

4.1. Usando o Gerenciador NuGet do Visual Studio

Você pode integrar o IronOCR em um projeto C# usando o Gerenciador de Pacotes NuGet do Visual Studio.

Acesse a GUI do Gerenciador de Pacotes NuGet clicando em Ferramentas > Gerenciador de Pacotes NuGet > Gerenciar Pacotes NuGet para Soluções...

A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 3

Depois disso, uma nova janela aparecerá. Procure por IronOCR e instale o pacote no projeto.

A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 4

Pacotes de idiomas adicionais para o IronOCR também podem ser instalados usando o mesmo método descrito acima.

4.2. Download Direto da Página do NuGet

O IronOCR pode ser baixado diretamente do site do NuGet seguindo estas instruções:

  1. Navigate to the IronPDF NuGet Gallery Page.
  2. Selecione a opção de pacote de download no menu do lado direito.
  3. Clique duas vezes no pacote baixado. Será instalado automaticamente.

4.3. Download Direto da Página do IronOCR

Os desenvolvedores podem baixar a biblioteca do site do IronOCR e adicioná-la como uma referência ao projeto.

Siga as instruções abaixo para adicionar a biblioteca como uma referência no Visual Studio.

  1. Clique com o botão direito no projeto na janela da solução.
  2. Depois, selecione Adicionar Referência ao Projeto e navegue até a localização da referência baixada.
  3. Em seguida, clique em OK para adicionar a referência.

4.4. Usando a Linha de Comando do Visual Studio

  1. No Visual Studio, vá para Ferramentas > Gerenciador de Pacotes NuGet > Console do Gerenciador de Pacotes.
  2. Insira a seguinte linha na aba do console do gerenciador de pacotes:
Install-Package IronOcr
A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 5

O pacote será baixado/instalado no projeto atual e estará pronto para uso.

A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 6

5. Instalar a Biblioteca OCR Syncfusion Essential PDF

O Syncfusion Essential PDF pode ser instalado de três maneiras diferentes.

  1. Usando o Gerenciador de Pacotes NuGet do Visual Studio
  2. Download direto da página do NuGet.
  3. Usando a Linha de Comando do Visual Studio.

5.1. Usando o Gerenciador NuGet do Visual Studio

Assim como com o IronOCR, os desenvolvedores também podem instalar a Biblioteca OCR da SyncFusion usando o Gerenciador de Pacotes NuGet do Visual Studio.

Acesse o Gerenciador de Pacotes como antes clicando em Ferramentas > Gerenciador de Pacotes NuGet > Gerenciar Pacotes NuGet para Soluções...

A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 7

Pesquise por SyncFusion OCR e instale o pacote apropriado (deve ser Syncfusion.PDF.OCR.Net.Core).

A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 8

Additional language packs for SyncFusion Essential PDF OCR can be downloaded from GitHub.

5.2. Download Direto da Página do NuGet

O OCR Syncfusion Essential PDF pode ser baixado diretamente do site do NuGet seguindo estas instruções:

  1. Navigate to the package's NuGet Gallery page.
  2. Selecione a opção de pacote de download no menu do lado direito.
  3. Clique duas vezes no pacote baixado. Será instalado automaticamente.
  4. Em seguida, recarregue a solução e comece a usá-la no projeto.

5.3. Usando a Linha de Comando do Visual Studio

  1. No Visual Studio, vá para Ferramentas > Gerenciador de Pacotes NuGet > Console do Gerenciador de Pacotes.
  2. Insira a seguinte linha na aba do console do gerenciador de pacotes:
Install-Package Syncfusion.PDF.OCR.Net.Core -Version 20.2.0.38
A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 9

O pacote será baixado/instalado no projeto atual e estará pronto para uso.

6. Realizar OCR em Documentos PDF

Tanto o IronOCR quanto o OCR da Syncfusion são capazes de realizar OCR em documentos PDF. Aqui, discutiremos como ambos podem ser usados no Visual Studio.

6.1. Extração de Texto OCR de PDF Usando IronOCR

Com apenas algumas linhas de código, os desenvolvedores podem realizar OCR em um PDF inteiro ou em páginas/porções específicas de um PDF. Considere o trecho de código abaixo.

using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Add a PDF document and specify a password if needed
    Input.AddPdf("example.pdf", "password");
    // Read the textual content from the PDF
    var Result = Ocr.Read(Input);
    // Display the text in the console
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Add a PDF document and specify a password if needed
    Input.AddPdf("example.pdf", "password");
    // Read the textual content from the PDF
    var Result = Ocr.Read(Input);
    // Display the text in the console
    Console.WriteLine(Result.Text);
}
$vbLabelText   $csharpLabel

6.2. Extração de Texto PDF OCR Usando Syncfusion Essential PDF OCR

Você pode usar a classe OCRProcessor para realizar OCR em documentos PDF, bem como em regiões de um documento. Examine o exemplo de código abaixo para contexto.

using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Parsing;

// Initialize the OCR processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
    // Load the input PDF document
    PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
    // Set the OCR language
    processor.Settings.Language = Languages.English;
    // Perform OCR on the loaded PDF
    processor.PerformOCR(lDoc, @"TessData\");
    // Save the processed PDF
    lDoc.Save("Sample.pdf");
    // Close the document
    lDoc.Close(true);
}
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Parsing;

// Initialize the OCR processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
    // Load the input PDF document
    PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
    // Set the OCR language
    processor.Settings.Language = Languages.English;
    // Perform OCR on the loaded PDF
    processor.PerformOCR(lDoc, @"TessData\");
    // Save the processed PDF
    lDoc.Save("Sample.pdf");
    // Close the document
    lDoc.Close(true);
}
$vbLabelText   $csharpLabel

7. Executar OCR em Imagens

Ambas as bibliotecas podem executar OCR em imagens dentro de uma aplicação C#.NET e .NET Core.

7.1. Executar OCR em Imagens Usando IronOCR

IronOCR é única na sua capacidade de detectar e ler automaticamente texto de imagens escaneadas imperfeitamente com apenas duas linhas de código.

using IronOcr;

// Perform OCR and read text from the specified image
var Result = new IronTesseract().Read(@"images\11111.png").Text;
using IronOcr;

// Perform OCR and read text from the specified image
var Result = new IronTesseract().Read(@"images\11111.png").Text;
$vbLabelText   $csharpLabel

Imagem de Entrada para OCR

A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 10

OCR OUTPUT from IMAGE
OCR Output
Simple Data Outputs:
» NET Text Strings
» Barcode & QR Data & Images
Structured Data Outputs:
» Pages
» Blocks
» Paragraphs
» Lines
» Words
» Characters
Export Documents:
» Searchable PDFs
» hOCR / HTML Export
» Images of any Page, Text Element or Barcode

7.2. Executar OCR em Imagem Usando o Processador Syncfusion Essential PDF OCR

Syncfusion Essential PDF é capaz de extrair texto de imagens com grande precisão.

using System.Drawing;
using Syncfusion.OCRProcessor;

// Initialize the OCR processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
    // Load the input image
    Bitmap image = new Bitmap("11111.jpeg");
    // Set the OCR language
    processor.Settings.Language = Languages.English;
    // Perform OCR on the loaded image
    string ocrText = processor.PerformOCR(image, @"TessData\");
}
using System.Drawing;
using Syncfusion.OCRProcessor;

// Initialize the OCR processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
    // Load the input image
    Bitmap image = new Bitmap("11111.jpeg");
    // Set the OCR language
    processor.Settings.Language = Languages.English;
    // Perform OCR on the loaded image
    string ocrText = processor.PerformOCR(image, @"TessData\");
}
$vbLabelText   $csharpLabel

Imagem de Entrada para OCR

A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 11

OCR OUTPUT from IMAGE
OCR Output
Simple Data Output:
+ NET Text Strings
Dee eT Nd
tC eke ass
Biren)
Soy
Seg
ors
eae
eed
TLC
eres
Smt d
See amr'
etd ieot

8. Licenciamento

O uso tanto do IronOCR quanto do Syncfusion Essential PDF requer licenças de software.

8.1. Licenciamento do IronOCR

IronOCR possui uma licença de desenvolvimento gratuita para projetos pessoais não comerciais.

IronOCR oferece uma estrutura de preços distinta para licenças comerciais. O pacote Lite começa em $799 sem custos adicionais. Todas as licenças incluem uma garantia de reembolso de 30 dias, um ano de suporte e atualizações de software, validade para desenvolvimento, testes, homologação, produção e uma licença perpétua (compra única). Saiba mais sobre a estrutura completa de preços e informações de licenciamento da IronOCR na nesta página.

Por uma taxa única de $1,599, você pode obter redistribuição livre de royalties de produtos SaaS e OEM.

A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 12

8.2. Licenciamento do Syncfusion Essential PDF

Syncfusion Essential PDF fornece três tipos de licenças para desenvolvedores, mas não oferece cobertura para SaaS e OEM.

  • Licença Comunitária. A licença comunitária é gratuita para desenvolvedores e pequenas empresas de até 5 desenvolvedores. Ela também inclui suporte ao vivo.
  • Licença de Varejo. A licença de varejo é uma licença anual que deve ser adquirida separadamente para cada desenvolvedor em uma organização. As licenças de varejo começam em $995 por ano por desenvolvedor.
  • Licença Ilimitada. Esta opção fornece licenças para toda a organização na mesma base anual, mas por um preço menor.

View the entire licensing structure for Syncfusion Essential PDF (and for other Syncfusion components) on the product licensing page.

A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 13

9. Conclusão

IronOCR suporta cerca de 125 idiomas mundialmente. Suas capacidades de processamento incluem: a capacidade de realizar OCR em porções de um documento PDF ou imagem, a capacidade de extrair texto de PDFs e fotos, e a capacidade de corrigir uma imagem de baixa qualidade, entre muitas outras. IronOCR prioriza velocidade e precisão. Sua taxa de precisão de 99,8% é maior do que qualquer outra biblioteca OCR baseada em Tesseract no mercado. IronOCR funciona imediatamente, sem a necessidade de ajuste de desempenho ou pré-processamento de imagem.

Syncfusion Essential PDF OCR também usa o motor Tesseract de código aberto do Google. Ele pode realizar OCR em documentos inteiros ou partes específicas de documentos. A biblioteca OCR do Syncfusion suporta mais de 60 idiomas internacionais.

As licenças do IronOCR têm validade vitalícia com suporte ilimitado e cobertura para SaaS e OEM. Por outro lado, o Syncfusion Essential PDF OCR oferece licenças anuais. A precificação do IronOCR começa em $799, e a precificação do Syncfusion começa em $995 por ano.

Obtenha o IronOCR juntamente com outros quatro produtos da Iron Software por um preço com desconto ao comprar a Iron Suite completa. Os produtos incluídos na Iron Suite são:

  1. IronPDF
  2. IronOCR
  3. IronXL
  4. IronBarcode
  5. IronWebscraper

A página de licenciamento da Iron Software contém mais informações detalhadas sobre preços e licenciamento para os cinco produtos acima.

ObserveSyncfusion Essential PDF é uma marca registrada de seu respectivo proprietário. Este site não é afiliado, endossado ou patrocinado pelo Syncfusion Essential PDF. Todos os nomes de produtos, logotipos e marcas são propriedade de seus respectivos proprietários. As comparações são apenas para fins informativos e refletem informações disponíveis publicamente no momento da redação.

Perguntas frequentes

Como posso realizar OCR em imagens usando C#?

Você pode usar o IronOCR para realizar OCR em imagens em C#. Ele fornece métodos para extrair texto de vários formatos de imagem com alta precisão e suporta mais de 125 idiomas.

Quais são as vantagens de usar o IronOCR para tarefas de OCR?

O IronOCR oferece excelentes taxas de precisão de 99,8%, suporta OCR em regiões específicas do documento, possui recursos de otimização de imagem para digitalizações de baixa qualidade e suporta uma ampla variedade de idiomas.

Como o IronOCR se compara às capacidades de OCR da Syncfusion?

Embora ambos utilizem o mecanismo Tesseract, o IronOCR suporta mais versões (3 a 5) e idiomas (mais de 125), oferece melhor precisão e fornece recursos aprimorados de correção de imagem em comparação com o OCR da Syncfusion.

Quais são as opções de licenciamento disponíveis para o IronOCR?

A IronOCR oferece uma licença de desenvolvimento gratuita para uso pessoal, com licenças comerciais disponíveis a partir de uma taxa única de US$ 1.599, incluindo uma licença perpétua e cobertura SaaS/OEM.

Posso usar o IronOCR para extrair texto de documentos PDF digitalizados?

Sim, o IronOCR consegue extrair texto de documentos PDF digitalizados usando seus recursos de OCR baseados em Tesseract, garantindo alta precisão e suporte a diversos idiomas.

Quais plataformas são suportadas pelo IronOCR?

O IronOCR é versátil e compatível com diversas plataformas, incluindo Windows, macOS, Linux, Azure, AWS, Lambda, Mono e Xamarin Mac.

Como o IronOCR lida com digitalizações de imagens de baixa qualidade?

O IronOCR inclui recursos para aprimorar a qualidade da imagem, como limpeza de ruído de fundo, aprimoramento de contraste e ajuste de resolução, o que melhora os resultados de OCR em imagens de baixa qualidade.

É possível realizar OCR em áreas específicas de um documento com o IronOCR?

Sim, o IronOCR permite que os usuários especifiquem áreas ou páginas específicas de um documento para OCR, proporcionando flexibilidade e controle sobre o processo de extração de texto.

Como posso integrar o IronOCR em um projeto .NET?

O IronOCR pode ser integrado a um projeto .NET através do Gerenciador de Pacotes NuGet do Visual Studio, a partir do site do NuGet ou fazendo o download do site do IronOCR.

Kannaopat Udonpant
Engenheiro de Software
Antes de se tornar Engenheiro de Software, Kannapat concluiu um doutorado em Recursos Ambientais pela Universidade de Hokkaido, no Japão. Durante o doutorado, Kannapat também integrou o Laboratório de Robótica Veicular, que faz parte do Departamento de Engenharia de Bioprodução. Em 2022, ele utilizou suas habilidades ...
Leia mais

Iron Support Team

We're online 24 hours, 5 days a week.
Chat
Email
Call Me