Uma comparação entre IronOCR e Syncfusion OCR
Este artigo comparará duas bibliotecas de software que usam reconhecimento óptico de caracteres (OCR) para automatizar a detecção e extração de texto impresso de imagens e de documentos digitalizados. Primeiro, discutiremos as funcionalidades de ambas as bibliotecas. Em seguida, examinaremos e compararemos suas capacidades de reconhecimento e extração de texto usando código-fonte de exemplo produzido com ambas as bibliotecas. Finalmente, compararemos as licenças e preços das bibliotecas.
As bibliotecas que compararemos neste artigo são:
- IronOCR
- Syncfusion Essential PDF
1. Syncfusion OCR
A biblioteca Essential PDF da Syncfusion incorpora funcionalidades de OCR para permitir o processamento de texto em imagens digitalizadas dentro de documentos PDF.
O processador de OCR da Syncfusion pode trabalhar com as versões 3 (3.02 e 3.05) e 4 do Tesseract. A biblioteca pode ser incluída em aplicações .NET Core e ASP.NET.
Recursos da Funcionalidade de OCR do SyncFusion Essential PDF incluem:
- Realize tarefas de OCR em documentos PDF. A classe
OCRProcessorda biblioteca pode ser usada para executar OCR em arquivos PDF. É baseado no processador de dados Tesseract, que é conhecido por ser um dos melhores processadores de OCR do mundo. - Executar Tarefas de OCR em Partes de Documentos PDF. Os usuários podem fazer OCR em páginas ou áreas específicas de um documento PDF.
- Executar Tarefas de OCR em Imagens. Os usuários podem extrair dados textuais de imagens para importação em outras aplicações.
- Suporte Multilíngue. O motor Google Tesseract (por extensão, Syncfusion) atualmente suporta mais de 60 idiomas e está experimentando muitos mais.
- Boa Precisão. Aproveitando o motor de código aberto Tesseract do Google, o Syncfusion Essential PDF atinge uma precisão de texto muito boa, realizando OCR em um tempo razoável.
2. IronOCR
O IronOCR é uma biblioteca de software C# que permite que desenvolvedores da plataforma .NET reconheçam e leiam texto de imagens e documentos PDF. É uma biblioteca de OCR exclusiva for .NET que usa o poderoso motor Tesseract. As versões 3 - 5 do Tesseract funcionam perfeitamente no Windows, macOS, Linux, Azure, AWS, Lambda, Mono, e Xamarin Mac.
O IronOCR abrange mais idiomas do que qualquer outro motor de OCR disponível, suportando 125 idiomas (apenas o inglês está instalado por padrão).
Os desenvolvedores .NET têm controle total sobre seus documentos, podendo modificá-los conforme acharem apropriado.
2.1. Funcionalidades do IronOCR
O IronOCR oferece uma combinação única de capacidades e funcionalidades para integrar, assinar, exportar, ler visuais e extrair detalhes de fotos, independentemente do conhecimento técnico do usuário ou da sofisticação do hardware.
2.1.1. Precisão
O SDK IronOCR supera outras bibliotecas de OCR em termos de precisão, com uma taxa de 99,8 por cento.
2.1.2. Corrigindo Scans e Imagens de Baixa Qualidade
A classe IronOCR fornece controle extensivo para desenvolvedores C#. Ela oferece aos desenvolvedores funcionalidades de OCR (imagens e PDF para texto) e desempenho ajustado em cada instância específica.
O IronOCR inclui opções de configuração que permitem à biblioteca processar imagens que não estejam de qualidade ideal. Algumas dessas configurações incluem: Limpar Ruído de Fundo, Melhorar Contraste, Melhorar Resolução, Idioma, Estratégia, Girar e Alinhar, Espaço de Cor, Detectar Texto Branco em Fundos Escuros e Tipo de Imagem de Entrada.
2.1.3. Idiomas
O IronOCR suporta mais de 125 idiomas internacionais.
2.1.4. Extração de Texto OCR
O Iron Tesseract pode ler vários formatos de imagem, bem como arquivos PDF. Este recurso não está disponível com motores Tesseract gratuitos padrão. Se suas digitalizações forem de baixa qualidade, a entrada OCR permite corrigir automaticamente os atributos necessários.
2.1.5. Filtros de Otimização de Imagem
A classe OCRInput fornece aos programadores C# controle granular sobre a entrada. A entrada da imagem é posteriormente pré-processada por desenvolvedores para velocidade e precisão. Isso elimina a necessidade de usar Scripts de Lote do Photoshop ou ImageMagick para preparar fotografias antes do processamento OCR.
2.1.6. Região OCR de uma Imagem
O IronOCR permite que seus usuários finais realizem OCR em áreas específicas de uma imagem.
2.1.7. Classe OCRResult
IronOCR retorna um objeto de resultado avançado para cada página que escaneia usando Tesseract 3, 4 ou 5. Isso contém dados de localização, imagens, texto, confiança estatística, opções de símbolo alternativas, nomes de fontes, tamanhos de fontes, decoração, pesos de fontes e uma posição para cada um dos seguintes:
- Páginas
- Parágrafos
- Linhas de Texto
- Palavras
- Caracteres Individuais
- Códigos de Barras
2.1.8. Múltiplos Idiomas em um Documento
O IronOCR permite que desenvolvedores usem vários idiomas em um único documento. Esta capacidade é extremamente benéfica para prestadores de serviços .NET.
3. Começando um Novo Projeto no Visual Studio
Neste artigo, usaremos um novo Aplicativo de Console do Visual Studio para demonstrar as capacidades de processamento OCR tanto do IronOCR quanto do Syncfusion Essential PDF.
Abra o software Visual Studio, vá ao menu de arquivo e selecione Novo Projeto. Em seguida, selecione Aplicativo de Console.
Insira o nome do projeto e selecione o caminho na caixa de texto apropriada. Em seguida, clique no botão de criar e selecione o .NET framework necessário, como na captura de tela abaixo:
O projeto Visual Studio agora gerará a estrutura para o novo aplicativo de console. O arquivo program.cs será aberto após a conclusão.
Agora, adicionaremos ambas as bibliotecas ao projeto.
4. Instale a Biblioteca IronOCR
A biblioteca IronOCR pode ser baixada e instalada de quatro maneiras. Estes são:
- Usando o Gerenciador de Pacotes NuGet do Visual Studio
- Download direto da página do NuGet.
- Download direto da página do IronOCR.
- Usando a Linha de Comando do Visual Studio.
4.1. Usando o Gerenciador NuGet do Visual Studio
Você pode integrar o IronOCR em um projeto C# usando o Gerenciador de Pacotes NuGet do Visual Studio.
Acesse a GUI do Gerenciador de Pacotes NuGet clicando em Ferramentas > Gerenciador de Pacotes NuGet > Gerenciar Pacotes NuGet para Soluções...
Depois disso, uma nova janela aparecerá. Procure por IronOCR e instale o pacote no projeto.
Pacotes de idiomas adicionais para o IronOCR também podem ser instalados usando o mesmo método descrito acima.
4.2. Download Direto da Página do NuGet
O IronOCR pode ser baixado diretamente do site do NuGet seguindo estas instruções:
- Navigate to the IronPDF NuGet Gallery Page.
- Selecione a opção de pacote de download no menu do lado direito.
- Clique duas vezes no pacote baixado. Será instalado automaticamente.
4.3. Download Direto da Página do IronOCR
Os desenvolvedores podem baixar a biblioteca do site do IronOCR e adicioná-la como uma referência ao projeto.
Siga as instruções abaixo para adicionar a biblioteca como uma referência no Visual Studio.
- Clique com o botão direito no projeto na janela da solução.
- Depois, selecione Adicionar Referência ao Projeto e navegue até a localização da referência baixada.
- Em seguida, clique em OK para adicionar a referência.
4.4. Usando a Linha de Comando do Visual Studio
- No Visual Studio, vá para Ferramentas > Gerenciador de Pacotes NuGet > Console do Gerenciador de Pacotes.
- Insira a seguinte linha na aba do console do gerenciador de pacotes:
Install-Package IronOcr
O pacote será baixado/instalado no projeto atual e estará pronto para uso.
5. Instalar a Biblioteca OCR Syncfusion Essential PDF
O Syncfusion Essential PDF pode ser instalado de três maneiras diferentes.
- Usando o Gerenciador de Pacotes NuGet do Visual Studio
- Download direto da página do NuGet.
- Usando a Linha de Comando do Visual Studio.
5.1. Usando o Gerenciador NuGet do Visual Studio
Assim como com o IronOCR, os desenvolvedores também podem instalar a Biblioteca OCR da SyncFusion usando o Gerenciador de Pacotes NuGet do Visual Studio.
Acesse o Gerenciador de Pacotes como antes clicando em Ferramentas > Gerenciador de Pacotes NuGet > Gerenciar Pacotes NuGet para Soluções...
Pesquise por SyncFusion OCR e instale o pacote apropriado (deve ser Syncfusion.PDF.OCR.Net.Core).
Additional language packs for SyncFusion Essential PDF OCR can be downloaded from GitHub.
5.2. Download Direto da Página do NuGet
O OCR Syncfusion Essential PDF pode ser baixado diretamente do site do NuGet seguindo estas instruções:
- Navigate to the package's NuGet Gallery page.
- Selecione a opção de pacote de download no menu do lado direito.
- Clique duas vezes no pacote baixado. Será instalado automaticamente.
- Em seguida, recarregue a solução e comece a usá-la no projeto.
5.3. Usando a Linha de Comando do Visual Studio
- No Visual Studio, vá para Ferramentas > Gerenciador de Pacotes NuGet > Console do Gerenciador de Pacotes.
- Insira a seguinte linha na aba do console do gerenciador de pacotes:
Install-Package Syncfusion.PDF.OCR.Net.Core -Version 20.2.0.38
O pacote será baixado/instalado no projeto atual e estará pronto para uso.
6. Realizar OCR em Documentos PDF
Tanto o IronOCR quanto o OCR da Syncfusion são capazes de realizar OCR em documentos PDF. Aqui, discutiremos como ambos podem ser usados no Visual Studio.
6.1. Extração de Texto OCR de PDF Usando IronOCR
Com apenas algumas linhas de código, os desenvolvedores podem realizar OCR em um PDF inteiro ou em páginas/porções específicas de um PDF. Considere o trecho de código abaixo.
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Add a PDF document and specify a password if needed
Input.AddPdf("example.pdf", "password");
// Read the textual content from the PDF
var Result = Ocr.Read(Input);
// Display the text in the console
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Add a PDF document and specify a password if needed
Input.AddPdf("example.pdf", "password");
// Read the textual content from the PDF
var Result = Ocr.Read(Input);
// Display the text in the console
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
' Add a PDF document and specify a password if needed
Input.AddPdf("example.pdf", "password")
' Read the textual content from the PDF
Dim Result = Ocr.Read(Input)
' Display the text in the console
Console.WriteLine(Result.Text)
End Using
6.2. Extração de Texto PDF OCR Usando Syncfusion Essential PDF OCR
Você pode usar a classe OCRProcessor para realizar OCR em documentos PDF, bem como em regiões de um documento. Examine o exemplo de código abaixo para contexto.
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Parsing;
// Initialize the OCR processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
// Load the input PDF document
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
// Set the OCR language
processor.Settings.Language = Languages.English;
// Perform OCR on the loaded PDF
processor.PerformOCR(lDoc, @"TessData\");
// Save the processed PDF
lDoc.Save("Sample.pdf");
// Close the document
lDoc.Close(true);
}
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Parsing;
// Initialize the OCR processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
// Load the input PDF document
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
// Set the OCR language
processor.Settings.Language = Languages.English;
// Perform OCR on the loaded PDF
processor.PerformOCR(lDoc, @"TessData\");
// Save the processed PDF
lDoc.Save("Sample.pdf");
// Close the document
lDoc.Close(true);
}
Imports Syncfusion.OCRProcessor
Imports Syncfusion.Pdf.Parsing
' Initialize the OCR processor
Using processor As New OCRProcessor("TesseractBinaries\")
' Load the input PDF document
Dim lDoc As New PdfLoadedDocument("Input.pdf")
' Set the OCR language
processor.Settings.Language = Languages.English
' Perform OCR on the loaded PDF
processor.PerformOCR(lDoc, "TessData\")
' Save the processed PDF
lDoc.Save("Sample.pdf")
' Close the document
lDoc.Close(True)
End Using
7. Executar OCR em Imagens
Ambas as bibliotecas podem executar OCR em imagens dentro de uma aplicação C#.NET e .NET Core.
7.1. Executar OCR em Imagens Usando IronOCR
IronOCR é única na sua capacidade de detectar e ler automaticamente texto de imagens escaneadas imperfeitamente com apenas duas linhas de código.
using IronOcr;
// Perform OCR and read text from the specified image
var Result = new IronTesseract().Read(@"images\11111.png").Text;
using IronOcr;
// Perform OCR and read text from the specified image
var Result = new IronTesseract().Read(@"images\11111.png").Text;
Imports IronOcr
' Perform OCR and read text from the specified image
Private Result = (New IronTesseract()).Read("images\11111.png").Text
Imagem de Entrada para OCR
OCR OUTPUT from IMAGE
OCR Output
Simple Data Outputs:
» NET Text Strings
» Barcode & QR Data & Images
Structured Data Outputs:
» Pages
» Blocks
» Paragraphs
» Lines
» Words
» Characters
Export Documents:
» Searchable PDFs
» hOCR / HTML Export
» Images of any Page, Text Element or Barcode
7.2. Executar OCR em Imagem Usando o Processador Syncfusion Essential PDF OCR
Syncfusion Essential PDF é capaz de extrair texto de imagens com grande precisão.
using System.Drawing;
using Syncfusion.OCRProcessor;
// Initialize the OCR processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
// Load the input image
Bitmap image = new Bitmap("11111.jpeg");
// Set the OCR language
processor.Settings.Language = Languages.English;
// Perform OCR on the loaded image
string ocrText = processor.PerformOCR(image, @"TessData\");
}
using System.Drawing;
using Syncfusion.OCRProcessor;
// Initialize the OCR processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
// Load the input image
Bitmap image = new Bitmap("11111.jpeg");
// Set the OCR language
processor.Settings.Language = Languages.English;
// Perform OCR on the loaded image
string ocrText = processor.PerformOCR(image, @"TessData\");
}
Imports System.Drawing
Imports Syncfusion.OCRProcessor
' Initialize the OCR processor
Using processor As New OCRProcessor("TesseractBinaries\")
' Load the input image
Dim image As New Bitmap("11111.jpeg")
' Set the OCR language
processor.Settings.Language = Languages.English
' Perform OCR on the loaded image
Dim ocrText As String = processor.PerformOCR(image, "TessData\")
End Using
Imagem de Entrada para OCR
OCR OUTPUT from IMAGE
OCR Output
Simple Data Output:
+ NET Text Strings
Dee eT Nd
tC eke ass
Biren)
Soy
Seg
ors
eae
eed
TLC
eres
Smt d
See amr'
etd ieot
8. Licenciamento
O uso tanto do IronOCR quanto do Syncfusion Essential PDF requer licenças de software.
8.1. Licenciamento do IronOCR
IronOCR possui uma licença de desenvolvimento gratuita para projetos pessoais não comerciais.
IronOCR oferece uma estrutura de preços distinta para licenças comerciais. O pacote Lite começa em $799 sem custos adicionais. Todas as licenças incluem uma garantia de reembolso de 30 dias, um ano de suporte e atualizações de software, validade para desenvolvimento, testes, homologação, produção e uma licença perpétua (compra única). Saiba mais sobre a estrutura completa de preços e informações de licenciamento da IronOCR na nesta página.
Por uma taxa única de $1,599, você pode obter redistribuição livre de royalties de produtos SaaS e OEM.
8.2. Licenciamento do Syncfusion Essential PDF
Syncfusion Essential PDF fornece três tipos de licenças para desenvolvedores, mas não oferece cobertura para SaaS e OEM.
- Licença Comunitária. A licença comunitária é gratuita para desenvolvedores e pequenas empresas de até 5 desenvolvedores. Ela também inclui suporte ao vivo.
- Licença de Varejo. A licença de varejo é uma licença anual que deve ser adquirida separadamente para cada desenvolvedor em uma organização. As licenças de varejo começam em $995 por ano por desenvolvedor.
- Licença Ilimitada. Esta opção fornece licenças para toda a organização na mesma base anual, mas por um preço menor.
View the entire licensing structure for Syncfusion Essential PDF (and for other Syncfusion components) on the product licensing page.
9. Conclusão
IronOCR suporta cerca de 125 idiomas mundialmente. Suas capacidades de processamento incluem: a capacidade de realizar OCR em porções de um documento PDF ou imagem, a capacidade de extrair texto de PDFs e fotos, e a capacidade de corrigir uma imagem de baixa qualidade, entre muitas outras. IronOCR prioriza velocidade e precisão. Sua taxa de precisão de 99,8% é maior do que qualquer outra biblioteca OCR baseada em Tesseract no mercado. IronOCR funciona imediatamente, sem a necessidade de ajuste de desempenho ou pré-processamento de imagem.
Syncfusion Essential PDF OCR também usa o motor Tesseract de código aberto do Google. Ele pode realizar OCR em documentos inteiros ou partes específicas de documentos. A biblioteca OCR do Syncfusion suporta mais de 60 idiomas internacionais.
As licenças do IronOCR têm validade vitalícia com suporte ilimitado e cobertura para SaaS e OEM. Por outro lado, o Syncfusion Essential PDF OCR oferece licenças anuais. A precificação do IronOCR começa em $799, e a precificação do Syncfusion começa em $995 por ano.
Obtenha o IronOCR juntamente com outros quatro produtos da Iron Software por um preço com desconto ao comprar a Iron Suite completa. Os produtos incluídos na Iron Suite são:
- IronPDF
- IronOCR
- IronXL
- IronBarcode
- IronWebscraper
A página de licenciamento da Iron Software contém mais informações detalhadas sobre preços e licenciamento para os cinco produtos acima.
Perguntas frequentes
Como posso realizar OCR em imagens usando C#?
Você pode usar o IronOCR para realizar OCR em imagens em C#. Ele fornece métodos para extrair texto de vários formatos de imagem com alta precisão e suporta mais de 125 idiomas.
Quais são as vantagens de usar o IronOCR para tarefas de OCR?
O IronOCR oferece excelentes taxas de precisão de 99,8%, suporta OCR em regiões específicas do documento, possui recursos de otimização de imagem para digitalizações de baixa qualidade e suporta uma ampla variedade de idiomas.
Como o IronOCR se compara às capacidades de OCR da Syncfusion?
Embora ambos utilizem o mecanismo Tesseract, o IronOCR suporta mais versões (3 a 5) e idiomas (mais de 125), oferece melhor precisão e fornece recursos aprimorados de correção de imagem em comparação com o OCR da Syncfusion.
Quais são as opções de licenciamento disponíveis para o IronOCR?
A IronOCR oferece uma licença de desenvolvimento gratuita para uso pessoal, com licenças comerciais disponíveis a partir de uma taxa única de US$ 1.599, incluindo uma licença perpétua e cobertura SaaS/OEM.
Posso usar o IronOCR para extrair texto de documentos PDF digitalizados?
Sim, o IronOCR consegue extrair texto de documentos PDF digitalizados usando seus recursos de OCR baseados em Tesseract, garantindo alta precisão e suporte a diversos idiomas.
Quais plataformas são suportadas pelo IronOCR?
O IronOCR é versátil e compatível com diversas plataformas, incluindo Windows, macOS, Linux, Azure, AWS, Lambda, Mono e Xamarin Mac.
Como o IronOCR lida com digitalizações de imagens de baixa qualidade?
O IronOCR inclui recursos para aprimorar a qualidade da imagem, como limpeza de ruído de fundo, aprimoramento de contraste e ajuste de resolução, o que melhora os resultados de OCR em imagens de baixa qualidade.
É possível realizar OCR em áreas específicas de um documento com o IronOCR?
Sim, o IronOCR permite que os usuários especifiquem áreas ou páginas específicas de um documento para OCR, proporcionando flexibilidade e controle sobre o processo de extração de texto.
Como posso integrar o IronOCR em um projeto .NET?
O IronOCR pode ser integrado a um projeto .NET através do Gerenciador de Pacotes NuGet do Visual Studio, a partir do site do NuGet ou fazendo o download do site do IronOCR.


