Dados OCR de palavras e caracteres em C# (coordenadas, confiança, caixas delimitadoras)

Atualizado:maio 14, 2026

Translated

View the article in English

Após executar o OCR em um documento, o texto extraído por si só geralmente não é suficiente. Para localizar valores específicos em uma página, excluir detecções de baixa qualidade ou reconstruir a ordem de leitura natural em layouts de várias colunas, você precisa de coordenadas por palavra, números de página, índices de região e pontuações de confiança.

As coleções Words e Characters em AdvancedOcrResultBase expõem esses dados. Tanto ReadDocumentAdvanced() para documentos com reconhecimento de layout quanto ReadPhoto() para entrada de câmera retornam a mesma granularidade disponível por meio da coleção padrão OcrResult.Words.

Este guia aborda cinco padrões comuns: iteração de dados de palavras, reconstrução da ordem de leitura, filtragem por confiança, trabalho no nível do caractere e recorte da imagem de origem a partir de uma caixa delimitadora.

Inicie um teste gratuito de 30 dias para experimentar essas coleções em seu pipeline.

Instalar com NuGet

Confira o IronOCR no NuGet para uma instalação rápida. Com mais de 10 milhões de downloads, ele está transformando o desenvolvimento de PDFs com C#. Você também pode baixar o arquivo DLL ou o instalador para Windows .

Início rápido: Ler dados de palavras e caracteres de um resultado de OCR

Chame ReadDocumentAdvanced (ou ReadPhoto) e repita result.Words para obter todas as palavras reconhecidas com suas coordenadas, número da página e pontuação de confiança em poucas linhas.

Instale IronOCR com o Gerenciador de Pacotes NuGet
PM > Install-Package IronOcr

Copie e execute este trecho de código.

var result = new IronTesseract().ReadDocumentAdvanced(new OcrInput("scan.png"));
foreach (var word in result.Words)
    Console.WriteLine($"{word.Text} @ ({word.X},{word.Y}) conf:{word.RegionConfidence:P0}");

Implante para testar em seu ambiente de produção.

Comece a usar IronOCR em seu projeto hoje com uma avaliação gratuita

Fluxo de trabalho mínimo (3 etapas)

Baixe a biblioteca OCR em C# do NuGet.
Execute OCR avançado com ReadDocumentAdvanced ou ReadPhoto em sua entrada.
Itere sobre result.Words ou result.Characters para obter coordenadas, confiança e caixas delimitadoras.

Como iterar palavras com coordenadas e confiança?

A coleção Words retorna todas as palavras detectadas em todas as páginas. Cada entrada (um AdvancedWord ou AdvancedCharacter, ambos herdando de AdvancedOcrElement) expõe o texto, as coordenadas de pixel, as dimensões, a página à qual pertence, o índice da região que identifica qual bloco de texto detectado a contém e uma pontuação de confiança para essa região.

:path=/static-assets/ocr/content-code-examples/how-to/read-document-advanced-iterate-words.cs

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadImage("receipt.png");

var result = ocr.ReadDocumentAdvanced(input);

foreach (var word in result.Words)
{
    Console.WriteLine(
        $"Page {word.PageNumber} | " +
        $"'{word.Text}' | " +
        $"Position: ({word.X}, {word.Y}) | " +
        $"Size: {word.Width}x{word.Height} | " +
        $"Confidence: {word.Confidence:P1}"
    );
}

// ToString() override for diagnostic logging
Console.WriteLine(result.Words.First().ToString());

Imports IronOcr

Dim ocr As New IronTesseract()
Using input As New OcrInput()
    input.LoadImage("receipt.png")

    Dim result = ocr.ReadDocumentAdvanced(input)

    For Each word In result.Words
        Console.WriteLine(
            $"Page {word.PageNumber} | " &
            $"'{word.Text}' | " &
            $"Position: ({word.X}, {word.Y}) | " &
            $"Size: {word.Width}x{word.Height} | " &
            $"Confidence: {word.Confidence:P1}"
        )
    Next

    ' ToString() override for diagnostic logging
    Console.WriteLine(result.Words.First().ToString())
End Using

$vbLabelText $csharpLabel

PontasPageNumber é baseado em 1: a página um é 1, não 0. Isso difere da maioria das coleções .NET , que usam indexação baseada em zero. RegionIndex segue a convenção padrão baseada em 0.

Para passar coordenadas para APIs de desenho ou recorte, use a propriedade BoundingBox. Ele agrupa posição e tamanho em um único IronSoftware.Drawing.Rectangle.

Como reconstruir a ordem de leitura?

Em layouts de várias colunas, a ordem de iteração da coleção Words não corresponde à ordem de leitura visual na página. As palavras são agrupadas por região detectada, portanto, colunas e células da tabela podem ser retornadas fora de sequência.

Para reconstruir uma ordem natural de cima para baixo e da esquerda para a direita, ordene a coleção primeiro pela coordenada Y e, em seguida, pela coordenada X dentro de cada linha. Uma pequena tolerância em Y agrupa palavras que estão na mesma linha de base.

:path=/static-assets/ocr/content-code-examples/how-to/read-document-advanced-reading-order.cs

using IronOcr;
using System.Linq;

var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadImage("multi-column-doc.png");

var result = ocr.ReadDocumentAdvanced(input);

int targetPage = 1;
int lineThreshold = 10; // pixel tolerance for grouping same-line words

// Sort by line (Y), then left-to-right (X)
var pageWords = result.Words
    .Where(w => w.PageNumber == targetPage)
    .OrderBy(w => w.Y / lineThreshold)
    .ThenBy(w => w.X)
    .ToList();

foreach (var word in pageWords)
{
    Console.Write($"{word.Text} ");
}
Console.WriteLine();

Imports IronOcr
Imports System.Linq

Dim ocr As New IronTesseract()
Using input As New OcrInput()
    input.LoadImage("multi-column-doc.png")

    Dim result = ocr.ReadDocumentAdvanced(input)

    Dim targetPage As Integer = 1
    Dim lineThreshold As Integer = 10 ' pixel tolerance for grouping same-line words

    ' Sort by line (Y), then left-to-right (X)
    Dim pageWords = result.Words _
        .Where(Function(w) w.PageNumber = targetPage) _
        .OrderBy(Function(w) w.Y \ lineThreshold) _
        .ThenBy(Function(w) w.X) _
        .ToList()

    For Each word In pageWords
        Console.Write($"{word.Text} ")
    Next
    Console.WriteLine()
End Using

$vbLabelText $csharpLabel

Ajuste lineThreshold para corresponder ao seu documento: 10–15 pixels funcionam para texto padrão de 12pt a 300 DPI. Títulos maiores ou entradas manuscritas exigem uma tolerância maior. Esse padrão é especialmente útil em páginas com várias colunas e dentro de células de tabelas, onde o mecanismo detecta cada coluna ou célula como sua própria região.

Como filtrar palavras de baixa confiança?

Para excluir detecções de baixa qualidade antes que elas cheguem ao seu banco de dados, índice de pesquisa ou extração subsequente, filtre a coleção por RegionConfidence. A pontuação varia de 0,0 a 1,0, sendo que valores mais altos indicam maior confiança no texto detectado.

:path=/static-assets/ocr/content-code-examples/how-to/read-document-advanced-confidence-filter.cs

using IronOcr;
using System.Linq;

var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadImage("noisy-scan.png");

var result = ocr.ReadDocumentAdvanced(input);

double threshold = 0.75;

var highConfidenceWords = result.Words
    .Where(w => w.Confidence >= threshold)
    .ToList();

var lowConfidenceWords = result.Words
    .Where(w => w.Confidence < threshold)
    .ToList();

Console.WriteLine($"Accepted: {highConfidenceWords.Count} words");
Console.WriteLine($"Rejected: {lowConfidenceWords.Count} words");

// Log rejected words for manual review
foreach (var word in lowConfidenceWords)
{
    Console.WriteLine(
        $"  LOW CONF: '{word.Text}' at ({word.X},{word.Y}) — {word.Confidence:P1}"
    );
}

Imports IronOcr
Imports System.Linq

Dim ocr = New IronTesseract()
Using input = New OcrInput()
    input.LoadImage("noisy-scan.png")

    Dim result = ocr.ReadDocumentAdvanced(input)

    Dim threshold As Double = 0.75

    Dim highConfidenceWords = result.Words _
        .Where(Function(w) w.Confidence >= threshold) _
        .ToList()

    Dim lowConfidenceWords = result.Words _
        .Where(Function(w) w.Confidence < threshold) _
        .ToList()

    Console.WriteLine($"Accepted: {highConfidenceWords.Count} words")
    Console.WriteLine($"Rejected: {lowConfidenceWords.Count} words")

    ' Log rejected words for manual review
    For Each word In lowConfidenceWords
        Console.WriteLine(
            $"  LOW CONF: '{word.Text}' at ({word.X},{word.Y}) — {word.Confidence:P1}"
        )
    Next
End Using

$vbLabelText $csharpLabel

Para digitalizações com qualidade mista (impressão nítida em algumas áreas, seções degradadas em outras), isso impede que resultados de baixa confiabilidade cheguem aos sistemas subsequentes. Para aumentar os níveis de confiança na origem, os filtros de pré-processamento de imagem (Desvio de Inclinação, Redução de Ruído, Binarização) melhoram a qualidade antes da aplicação do limiar.

Como iterar no nível do personagem?

Para sobreposições de verificação OCR , comparação em nível de caractere com a verdade fundamental ou análise espacial precisa em campos de formulário, use a coleção Characters. É um reflexo de Words, mas se resolve em caracteres individuais.

:path=/static-assets/ocr/content-code-examples/how-to/read-document-advanced-characters.cs

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadImage("form-field.png");

var result = ocr.ReadDocumentAdvanced(input);

foreach (var ch in result.Characters)
{
    Console.WriteLine(
        $"'{ch.Text}' | " +
        $"Box: ({ch.X}, {ch.Y}, {ch.Width}, {ch.Height}) | " +
        $"Page {ch.PageNumber}"
    );
}

// ToString() override provides diagnostic-friendly output
Console.WriteLine(result.Characters.First().ToString());

Imports IronOcr

Dim ocr = New IronTesseract()
Using input = New OcrInput()
    input.LoadImage("form-field.png")

    Dim result = ocr.ReadDocumentAdvanced(input)

    For Each ch In result.Characters
        Console.WriteLine($"'{ch.Text}' | Box: ({ch.X}, {ch.Y}, {ch.Width}, {ch.Height}) | Page {ch.PageNumber}")
    Next

    ' ToString() override provides diagnostic-friendly output
    Console.WriteLine(result.Characters.First().ToString())
End Using

$vbLabelText $csharpLabel

ObserveAmbos Words e Characters são computados preguiçosamente e armazenados em cache. O primeiro acesso inicia o cálculo; Acessos subsequentes retornam o resultado em cache, portanto, iterar uma segunda vez não custa nada.

Como recortar a imagem original usando uma caixa delimitadora?

Para extrair a região visual de uma palavra para verificação, anotação ou construção de dados de treinamento rotulados, passe a propriedade BoundingBox para AnyBitmap.CropRegion(). A caixa delimitadora corresponde diretamente à posição da palavra na imagem de origem.

:path=/static-assets/ocr/content-code-examples/how-to/read-document-advanced-crop-boundingbox.cs

using IronOcr;
using IronSoftware.Drawing;

var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadImage("invoice.png");

var result = ocr.ReadDocumentAdvanced(input);

// Load the original image for cropping
var originalImage = AnyBitmap.FromFile("invoice.png");

// Find a specific word and crop its region
var targetWord = result.Words.FirstOrDefault(w => w.Text == "Total");
if (targetWord != null)
{
    Rectangle cropRect = targetWord.BoundingBox;
    AnyBitmap croppedRegion = originalImage.Clone(cropRect);
    croppedRegion.SaveAs("total-region.png");

    Console.WriteLine(
        $"Cropped '{targetWord.Text}' from " +
        $"({cropRect.X}, {cropRect.Y}, {cropRect.Width}, {cropRect.Height})"
    );
}

Imports IronOcr
Imports IronSoftware.Drawing

Dim ocr As New IronTesseract()
Using input As New OcrInput()
    input.LoadImage("invoice.png")

    Dim result = ocr.ReadDocumentAdvanced(input)

    ' Load the original image for cropping
    Dim originalImage = AnyBitmap.FromFile("invoice.png")

    ' Find a specific word and crop its region
    Dim targetWord = result.Words.FirstOrDefault(Function(w) w.Text = "Total")
    If targetWord IsNot Nothing Then
        Dim cropRect As Rectangle = targetWord.BoundingBox
        Dim croppedRegion As AnyBitmap = originalImage.Clone(cropRect)
        croppedRegion.SaveAs("total-region.png")

        Console.WriteLine(
            $"Cropped '{targetWord.Text}' from " &
            $"({cropRect.X}, {cropRect.Y}, {cropRect.Width}, {cropRect.Height})"
        )
    End If
End Using

$vbLabelText $csharpLabel

Esse padrão é escalável para operações em massa: iterar por cada palavra, recortar cada caixa e exportar um conjunto de dados rotulados para treinamento de fontes personalizadas ou pipelines de aprendizado de máquina subsequentes. As coordenadas refletem a imagem após o pré-processamento; Se filtros como EnhanceResolution alterarem as dimensões, a caixa delimitadora corresponderá à imagem processada, e não à original no disco.

Próximos passos

O pipeline avançado fornece o mesmo nível de detalhamento espacial que IronTesseract.Read(), com inteligência de layout adicional. Tópicos relacionados:

Guia de extração de tabelas : aborda a propriedade Tables em ReadDocumentAdvanced para dados de células estruturadas.
Leitura dos resultados do OCR : dados de palavras para o pipeline padrão.
Correção da qualidade da imagem : filtros de pré-processamento que aumentam os índices de confiança.
Tutorial de OCR : configuração completa para novos usuários.

Inicie seu teste gratuito de 30 dias ou veja as opções de licenciamento .

Perguntas frequentes

O que é OCR Avançado em C#?

OCR Avançado em C# refere-se ao processo de usar o Reconhecimento Óptico de Caracteres para extrair dados detalhados de palavras e caracteres, incluindo coordenadas, níveis de confiança e caixas delimitadoras, usando o pipeline avançado do IronOCR.

Como posso acessar dados de palavras usando o IronOCR?

Você pode acessar dados de palavras no IronOCR iterando pela coleção AdvancedWord, que fornece informações detalhadas sobre a posição de cada palavra e sua pontuação de confiança no documento escaneado.

Qual é a importância das caixas delimitadoras no OCR?

Caixas delimitadoras são cruciais no OCR, pois definem a localização e as dimensões exatas dos elementos de texto reconhecidos na imagem escaneada, permitindo extração de texto precisa e manipulação de imagem.

Posso filtrar os resultados do OCR pela pontuação de confiança?

Sim, usando o IronOCR, você pode filtrar os resultados do OCR pela pontuação de confiança para garantir que apenas texto com alta precisão de reconhecimento seja considerado para processamento adicional.

Como reconstruo a ordem de leitura nos resultados do OCR?

Reconstruir a ordem de leitura nos resultados do OCR é possível analisando a sequência de objetos AdvancedWord e AdvancedCharacter fornecidos pelo IronOCR, que refletem o fluxo natural de leitura do documento.

É possível recortar imagens de origem usando o IronOCR?

O IronOCR permite que você recorte imagens de origem com base na análise de dados de texto, que inclui as caixas delimitadoras e coordenadas de palavras e caracteres reconhecidos.

O que são as coleções AdvancedWord e AdvancedCharacter?

As coleções AdvancedWord e AdvancedCharacter no IronOCR são estruturas de dados que armazenam informações detalhadas sobre cada palavra e caractere reconhecidos, incluindo suas coordenadas, níveis de confiança e caixas delimitadoras.

Como o IronOCR lida com o reconhecimento de caracteres?

O IronOCR lida com o reconhecimento de caracteres utilizando um pipeline avançado que analisa as características de cada caractere, fornecendo dados detalhados como sua posição, tamanho e confiança de reconhecimento.

Que tipo de documentos podem ser processados com o IronOCR?

O IronOCR pode processar uma ampla variedade de tipos de documentos, incluindo PDFs, imagens escaneadas e fotos, extraindo dados de texto com alta precisão e detalhe.

Há uma avaliação gratuita disponível para o IronOCR?

Sim, o Iron Software oferece uma avaliação gratuita do IronOCR, permitindo que os usuários testem seus recursos e capacidades antes de tomar uma decisão de compra.

Darrius Serrant

Converse agora mesmo com a equipe de engenharia.

Engenheiro de Software Full Stack (WebOps)

Darrius Serrant é bacharel em Ciência da Computação pela Universidade de Miami e trabalha como Engenheiro de Marketing WebOps Full Stack na Iron Software. Atraído por programação desde jovem, ele via a computação como algo misterioso e acessível ao mesmo tempo, tornando-a o meio ...

Ainda está rolando a tela?

Quer provas rápidas? PM > Install-Package IronOcr
executar um exemplo Veja sua imagem se transformar em texto pesquisável.

Ver licenças

Destaque do cliente:

Destaque do desenvolvedor:

Webinários:

Experimente gratuitamente por 30 dias.

Nesta página

Dados OCR de palavras e caracteres em C# (coordenadas, confiança, caixas delimitadoras)

Instale IronOCR com o Gerenciador de Pacotes NuGet

Copie e execute este trecho de código.

Implante para testar em seu ambiente de produção.

Fluxo de trabalho mínimo (3 etapas)

Como iterar palavras com coordenadas e confiança?

Como reconstruir a ordem de leitura?

Como filtrar palavras de baixa confiança?

Como iterar no nível do personagem?

Como recortar a imagem original usando uma caixa delimitadora?

Próximos passos

Perguntas frequentes

O que é OCR Avançado em C#?

Como posso acessar dados de palavras usando o IronOCR?

Qual é a importância das caixas delimitadoras no OCR?

Posso filtrar os resultados do OCR pela pontuação de confiança?

Como reconstruo a ordem de leitura nos resultados do OCR?

É possível recortar imagens de origem usando o IronOCR?

O que são as coleções AdvancedWord e AdvancedCharacter?

Como o IronOCR lida com o reconhecimento de caracteres?

Que tipo de documentos podem ser processados com o IronOCR?

Há uma avaliação gratuita disponível para o IronOCR?

Ainda está rolando a tela?

Sua chave de licença foi entregue à sua caixa de entrada

Sua solicitação de demonstração está em andamento.

Equipe de Suporte Iron

Experimente gratuitamente por 30 dias.

Nesta página

Dados OCR de palavras e caracteres em C# (coordenadas, confiança, caixas delimitadoras)

Instale IronOCR com o Gerenciador de Pacotes NuGet

Copie e execute este trecho de código.

Implante para testar em seu ambiente de produção.

Fluxo de trabalho mínimo (3 etapas)

Como iterar palavras com coordenadas e confiança?

Como reconstruir a ordem de leitura?

Como filtrar palavras de baixa confiança?

Como iterar no nível do personagem?

Como recortar a imagem original usando uma caixa delimitadora?

Próximos passos

Perguntas frequentes

O que é OCR Avançado em C#?

Como posso acessar dados de palavras usando o IronOCR?

Qual é a importância das caixas delimitadoras no OCR?

Posso filtrar os resultados do OCR pela pontuação de confiança?

Como reconstruo a ordem de leitura nos resultados do OCR?

É possível recortar imagens de origem usando o IronOCR?

O que são as coleções AdvancedWord e AdvancedCharacter?

Como o IronOCR lida com o reconhecimento de caracteres?

Que tipo de documentos podem ser processados com o IronOCR?

Há uma avaliação gratuita disponível para o IronOCR?

Ainda está rolando a tela?

Próximo passo: Inicie o teste gratuito de 30 dias.

Thank You

Próximo passo: Inicie o teste gratuito de 30 dias.

Quer implantar o IronSuite em um projeto real de graça?

O que está incluído?

Sua chave de licença foi entregue à sua caixa de entrada

Sua solicitação de demonstração está em andamento.

Aprovado por milhões de engenheiros em todo o mundo.

Equipe de Suporte Iron