Como usar vários idiomas com o Tesseract

Como usar várias linguagens com o Tesseract em C

This article was translated from English: Does it need improvement?
Translated
View the article in English

O IronOCR permite a extração de texto de documentos em vários idiomas usando o mecanismo Tesseract, configurando os idiomas primário e secundário com apenas uma linha de código, suportando mais de 125 pacotes de idiomas para um processamento OCR multilíngue perfeito.

Introdução

O IronOCR oferece extração de texto de vários idiomas e alfabetos usando o mecanismo Tesseract como uma ferramenta OCR confiável.

Este artigo explora como o IronOCR processa textos em vários idiomas por meio do Tesseract. Você aprenderá como implementar soluções de OCR multilíngues e compreenderá os recursos do IronOCR e sua integração com o mecanismo Tesseract.

O processamento de documentos em vários idiomas é essencial para as aplicações modernas. Documentos comerciais internacionais, sites multilíngues e plataformas de comunicação globais exigem extração de texto precisa, mesmo diante de barreiras linguísticas. O IronOCR atende a essa necessidade integrando-se ao amplo suporte a idiomas do Tesseract, permitindo a extração de texto de documentos que contenham vários alfabetos e conjuntos de caracteres simultaneamente.

Guia rápido: Usando o IronOCR para reconhecer texto em vários idiomas

Configure o IronOCR com um idioma principal e adicione idiomas secundários em uma única linha para extrair texto de documentos ou imagens multilíngues.

  1. Instale IronOCR com o Gerenciador de Pacotes NuGet

    PM > Install-Package IronOcr
  2. Copie e execute este trecho de código.

    string text = new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French).Read("doc_or_image_path").Text;
  3. Implante para testar em seu ambiente de produção.

    Comece a usar IronOCR em seu projeto hoje com uma avaliação gratuita

    arrow pointer


Como faço para ler PDFs multilíngues com o IronOCR?

O IronOcr oferece cerca de 125 pacotes de idiomas ; Apenas o inglês está instalado por padrão. Baixe idiomas adicionais do NuGet. Veja todos os pacotes de idiomas disponíveis aqui.

Os arquivos PDF que contêm vários idiomas exigem uma configuração específica do mecanismo OCR. O IronOCR permite especificar idiomas primários e secundários antes do processamento de documentos, garantindo a máxima precisão de reconhecimento em diferentes alfabetos e conjuntos de caracteres.

Quais idiomas estão disponíveis para extração de PDF?

O exemplo a seguir mostra como usar vários idiomas no IronOcr para extrair texto de um arquivo PDF.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);

// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);

// Output extracted text to console
Console.WriteLine(result.Text);
$vbLabelText   $csharpLabel

Para cenários complexos de processamento de PDF, consulte nosso guia sobre Extração de Texto OCR em PDF, que abrange técnicas avançadas para diversos formatos e estruturas de PDF.

Como a prioridade do idioma afeta os resultados do OCR?

Adicione qualquer número de idiomas secundários utilizando o método AddSecondaryLanguage. Observe que idiomas adicionais podem afetar a velocidade e o desempenho. A prioridade da linguagem depende da ordem em que foi adicionada, sendo que a primeira tem maior prioridade.

Compreender a prioridade linguística é crucial no processamento de documentos multilíngues. O idioma principal recebe a maior prioridade durante a extração de texto — o mecanismo de OCR primeiro tenta encontrar correspondências entre os caracteres e o conjunto de caracteres do idioma principal. Consultam-se línguas secundárias quando se encontram caracteres que não correspondem aos padrões da língua primária.

Para um desempenho ideal: Defina o idioma mais comum no seu documento como principal.

  • Adicionar idiomas secundários ordenados por frequência no documento
  • Limite os idiomas secundários àqueles necessários para o seu caso de uso.

Para aplicações de alto desempenho com vários idiomas, consulte nosso guia de Configuração Rápida de OCR para otimizar a velocidade de processamento.

Como processar imagens em vários idiomas com o Tesseract?

O inglês é o idioma principal padrão. To change it, set the Language property to your desired language, then add secondary languages as needed.

Imagens que contêm texto multilíngue exigem configuração cuidadosa. Ao contrário dos PDFs, as imagens podem conter orientações de texto variadas, fontes diferentes e alfabetos mistos. A integração do IronOCR com o Tesseract oferece opções abrangentes de configuração de idioma para esses cenários.

Quando devo alterar a configuração de idioma padrão?

Alterar o idioma padrão quando:

  • A maior parte do documento está em um idioma que não é o inglês.
  • Processamento de documentos de uma região ou país específico
  • Seu aplicativo é voltado para usuários que trabalham com conteúdo em outros idiomas que não o inglês.
  • Otimização da precisão de reconhecimento para conjuntos de caracteres específicos

Aqui está um exemplo completo de processamento de imagens em vários idiomas:

// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);

// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);

// Output extracted text to console
Console.WriteLine(result.Text);
$vbLabelText   $csharpLabel

Para idiomas personalizados ou fontes especializadas, consulte nosso tutorial sobre Como usar arquivos de idioma personalizados .

Que resultados posso esperar do OCR multilíngue?

Uma configuração adequada produz resultados como estes:

Aplicativo de processamento de texto multilíngue mostrando conteúdo em russo e japonês com saída de console exibindo processamento de caracteres

A qualidade dos resultados do OCR multilíngue depende de diversos fatores:

  1. Qualidade da imagem : Uma resolução mais alta (acima de 300 DPI) produz melhores resultados. Consulte nosso guia de configurações de DPI .
  2. Clareza do texto : Textos claros e bem definidos, sem artefatos, proporcionam um reconhecimento mais preciso.
  3. Configuração de idioma : A configuração correta dos idiomas primário e secundário garante o reconhecimento correto dos padrões de caracteres.
  4. Pré-processamento : Filtros adequados melhoram significativamente os resultados. Consulte nosso guia de filtros de correção de imagem para obter técnicas de aprimoramento.

Quais são os principais pontos a serem considerados para o OCR multilíngue?

O IronOCR, utilizando o mecanismo Tesseract, extrai texto de documentos multilíngues de forma eficaz. Ele lida com as complexidades da leitura de textos em vários idiomas, oferecendo uma solução versátil. Seja processando PDFs em vários idiomas ou trabalhando com conteúdo de imagem multilíngue, o IronOCR simplifica o reconhecimento e a extração de texto em diferentes idiomas.

Principais vantagens do IronOCR para extração de texto multilíngue:

  • Ampla compatibilidade com idiomas : Mais de 125 idiomas internacionais de OCR disponíveis através de pacotes NuGet.
  • Configuração flexível : API simples para configurações de idioma primário e secundário.
  • Alta precisão : Utiliza os algoritmos avançados de reconhecimento do Tesseract 5.
  • Otimização de desempenho : suporte multithreading integrado
  • Compatibilidade multiplataforma : funciona no Windows, Linux e macOS

O IronOCR oferece uma solução completa que combina facilidade de uso com recursos poderosos para implementação de OCR em vários idiomas. Desenvolva sistemas de gerenciamento de documentos, ferramentas de tradução ou qualquer aplicação que exija extração de texto multilíngue com a flexibilidade e confiabilidade necessárias para o sucesso.

Comece seu projeto de OCR multilíngue baixando o IronOCR do NuGet e explorando nossa documentação e exemplos. Para casos de uso específicos ou cenários avançados, nossos guias de solução de problemas fornecem informações para resultados ideais.

Perguntas frequentes

Como posso realizar OCR em documentos que contenham vários idiomas?

O IronOCR permite configurar OCR multilíngue com apenas uma linha de código. Defina um idioma principal usando a propriedade `Language` e adicione idiomas secundários usando o método `AddSecondaryLanguage`. Isso permite que o IronOCR extraia com precisão o texto de documentos que contenham vários alfabetos e conjuntos de caracteres simultaneamente.

Quais idiomas são suportados para extração de texto?

O IronOCR suporta mais de 125 pacotes de idiomas através da integração com o mecanismo Tesseract. Embora o inglês esteja instalado por padrão, você pode baixar pacotes de idiomas adicionais do NuGet para habilitar recursos de OCR em idiomas que vão do espanhol e francês ao árabe, chinês, japonês e muitos outros.

Como adiciono idiomas secundários para processamento de OCR?

Utilize o método `AddSecondaryLanguage` no IronOCR para habilitar idiomas adicionais. Por exemplo: `new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French)`. Essa configuração permite que o IronOCR reconheça texto em espanhol e francês no mesmo documento.

Posso extrair texto de PDFs multilíngues?

Sim, o IronOCR consegue processar PDFs com vários idiomas. Basta configurar o mecanismo de OCR com seus idiomas principal e secundário antes do processamento. O IronOCR lidará automaticamente com diferentes scripts e conjuntos de caracteres no PDF, garantindo a extração precisa do texto em todos os idiomas presentes no documento.

Preciso instalar pacotes de idiomas separadamente?

Sim, embora o IronOCR inclua o inglês por padrão, pacotes de idiomas adicionais precisam ser instalados via NuGet. Cada pacote de idioma contém os dados necessários para que o mecanismo Tesseract do IronOCR reconheça o texto nesse idioma específico. Você pode visualizar e baixar todos os pacotes de idiomas disponíveis na página de idiomas do IronOCR.

Qual é o fluxo de trabalho mínimo para OCR multilíngue?

O fluxo de trabalho mínimo envolve 5 etapas: 1) Baixe a biblioteca IronOCR, 2) Prepare seu documento PDF ou imagem, 3) Instale os pacotes de idiomas necessários via NuGet, 4) Use o método AddSecondaryLanguage para habilitar idiomas adicionais e 5) Defina a propriedade Language para seu idioma principal. Essa configuração permite a extração precisa de texto multilíngue.

Kannaopat Udonpant
Engenheiro de Software
Antes de se tornar Engenheiro de Software, Kannapat concluiu um doutorado em Recursos Ambientais pela Universidade de Hokkaido, no Japão. Durante o doutorado, Kannapat também integrou o Laboratório de Robótica Veicular, que faz parte do Departamento de Engenharia de Bioprodução. Em 2022, ele utilizou suas habilidades ...
Leia mais
Analisado por
Jeff Fritz
Jeffrey T. Fritz
Gerente de Programa Principal - Equipe da Comunidade .NET
Jeff também é Gerente de Programa Principal das equipes do .NET e do Visual Studio. Ele é o produtor executivo da série de conferências virtuais .NET Conf e apresenta o "Fritz and Friends", uma transmissão ao vivo para desenvolvedores que vai ao ar duas vezes por semana, onde ele conversa sobre tecnologia e escreve código junto com os espectadores. Jeff cria workshops, apresentações e planeja conteúdo para os maiores eventos de desenvolvedores da Microsoft, incluindo o Microsoft Build, o Microsoft Ignite, a .NET Conf e o Microsoft MVP Summit.
Pronto para começar?
Nuget Downloads 5,525,971 | Versão: 2026.3 acaba de ser lançado
Still Scrolling Icon

Ainda está rolando a tela?

Quer provas rápidas? PM > Install-Package IronOcr
executar um exemplo Veja sua imagem se transformar em texto pesquisável.