Cómo extraer resultados de lectura

Chaknith Bin

31 de octubre, 2023

Actualizado 10 de diciembre, 2024

Translated

View the article in English

El resultado de la lectura o del reconocimiento óptico de caracteres abarca una gran cantidad de información relativa a los párrafos, líneas, palabras y caracteres individuales detectados. Para cada uno de estos elementos, el resultado ofrece un amplio conjunto de detalles.

Para cada elemento, proporciona el contenido del texto, las coordenadas X e Y precisas, las dimensiones (ancho y altura), la dirección del texto (de izquierda a derecha o de arriba hacia abajo) y la ubicación en un objeto CropRectangle.

Comience con IronOCR

Comience a usar IronOCR en su proyecto hoy con una prueba gratuita.

Primer Paso:

Cómo extraer resultados de lectura

Descargar una biblioteca de C# para acceder a los resultados de lectura
Preparar la imagen de destino y el documento PDF
Utilice el método Read para realizar OCR en el documento importado
Accede a la dirección X, Y, anchura, altura y texto del resultado
Verifica los párrafos, líneas, palabras y comparaciones de caracteres detectados

Datos en OcrResult

El valor resultante no sólo contiene el texto extraído, sino que también proporciona información sobre páginas, párrafos, líneas, palabras, caracteres y códigos de barras descubiertos en el documento PDF y de imagen por IronOcr. Puede acceder a esta información desde el objeto OcrResult devuelto utilizando el método Read.

:path=/static-assets/ocr/content-code-examples/how-to/read-results-output-information.cs

using IronOcr;
using System;
using static IronOcr.OcrResult;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Add image
using var imageInput = new OcrImageInput("sample.jpg");
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

// Retrieve list of detected paragraphs
Paragraph[] paragraphs = ocrResult.Paragraphs;

// Output information to console
Console.WriteLine($"Text: {paragraphs[0].Text}");
Console.WriteLine($"X: {paragraphs[0].X}");
Console.WriteLine($"Y: {paragraphs[0].Y}");
Console.WriteLine($"Width: {paragraphs[0].Width}");
Console.WriteLine($"Height: {paragraphs[0].Height}");
Console.WriteLine($"Text direction: {paragraphs[0].TextDirection}");

Imports IronOcr
Imports System
Imports IronOcr.OcrResult

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Add image
Private imageInput = New OcrImageInput("sample.jpg")
' Perform OCR
Private ocrResult As OcrResult = ocrTesseract.Read(imageInput)

' Retrieve list of detected paragraphs
Private paragraphs() As Paragraph = ocrResult.Paragraphs

' Output information to console
Console.WriteLine($"Text: {paragraphs(0).Text}")
Console.WriteLine($"X: {paragraphs(0).X}")
Console.WriteLine($"Y: {paragraphs(0).Y}")
Console.WriteLine($"Width: {paragraphs(0).Width}")
Console.WriteLine($"Height: {paragraphs(0).Height}")
Console.WriteLine($"Text direction: {paragraphs(0).TextDirection}")

$vbLabelText $csharpLabel

Para cada parte del texto, como párrafos, líneas, palabras y caracteres individuales, proporcionamos la siguiente información:

Texto: El texto real como cadena.
X: La posición desde el borde izquierdo de la página en píxeles.
Y: La posición desde el borde superior de la página en píxeles.
Anchura: La anchura en píxeles.
Altura: La altura en píxeles.
Dirección del texto: La dirección en la que se leyó el texto, como 'De izquierda a derecha' o 'De arriba abajo'.
Localización: Un rectángulo que muestra dónde se encuentra este texto en la página en píxeles.

Comparación de párrafos, líneas, palabras y caracteres

A continuación se comparan los párrafos, líneas, palabras y caracteres detectados.

Paragraph	Line
Word	Character

Código de barras y código QR

¡Eso es correcto! IronOcr puede leer códigos de barras y códigos QR. Aunque la función puede no ser tan robusta como IronBarcode, IronOCR sí proporciona soporte para tipos de códigos de barras comunes. Para habilitar la detección de códigos de barras, establezca la propiedad Configuration.ReadBarCodes en true.

Además, se puede extraer información valiosa del código de barras detectado, incluyendo su formato, valor, coordenadas (x, y), altura, ancho y ubicación como objeto IronSoftware.Drawing.Rectangle. Esta clase de Rectangle en IronDrawing permite un posicionamiento preciso en el documento.

:path=/static-assets/ocr/content-code-examples/how-to/read-results-barcodes.cs

using IronOcr;
using System;
using static IronOcr.OcrResult;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Enable barcodes detection
ocrTesseract.Configuration.ReadBarCodes = true;

// Add image
using OcrInput ocrInput = new OcrInput();
ocrInput.LoadPdf("sample.pdf");

// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(ocrInput);

// Output information to console
foreach(var barcode in ocrResult.Barcodes)
{
    Console.WriteLine("Format = " + barcode.Format);
    Console.WriteLine("Value = " + barcode.Value);
    Console.WriteLine("X = " + barcode.X);
    Console.WriteLine("Y = " + barcode.Y);
}
Console.WriteLine(ocrResult.Text);

Imports IronOcr
Imports System
Imports IronOcr.OcrResult

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Enable barcodes detection
ocrTesseract.Configuration.ReadBarCodes = True

' Add image
Using ocrInput As New OcrInput()
	ocrInput.LoadPdf("sample.pdf")
	
	' Perform OCR
	Dim ocrResult As OcrResult = ocrTesseract.Read(ocrInput)
	
	' Output information to console
	For Each barcode In ocrResult.Barcodes
		Console.WriteLine("Format = " & barcode.Format)
		Console.WriteLine("Value = " & barcode.Value)
		Console.WriteLine("X = " & barcode.X)
		Console.WriteLine("Y = " & barcode.Y)
	Next barcode
	Console.WriteLine(ocrResult.Text)
End Using

$vbLabelText $csharpLabel

Salida

Chaknith Bin

Chatea con el equipo de ingeniería ahora

Ingeniero de software

Chaknith es el Sherlock Holmes de los desarrolladores. La primera vez que se le ocurrió que podría tener futuro en la ingeniería de software fue cuando hacía retos de código por diversión. Su trabajo se centra en IronXL e IronBarcode, pero se enorgullece de ayudar a los clientes con todos los productos. Chaknith aprovecha sus conocimientos, adquiridos hablando directamente con los clientes, para ayudar a mejorar los propios productos. Sus comentarios anecdóticos van más allá de los tickets de Jira y apoyan el desarrollo de productos, la documentación y el marketing, para mejorar la experiencia general del cliente.Cuando no está en la oficina, se le puede encontrar aprendiendo sobre aprendizaje automático, codificación y senderismo.