Cómo conseguir confianza en la lectura
Leer con confianza en OCR (Reconocimiento óptico de caracteres) se refiere al nivel de certeza o fiabilidad que el sistema OCR asigna a la exactitud del texto que ha reconocido en una imagen o documento. Es una medida de la confianza que tiene el sistema de OCR en que el texto reconocido es correcto.
Una puntuación de confianza alta indica un alto grado de certeza de que el reconocimiento es preciso, mientras que una puntuación de confianza baja sugiere que el reconocimiento puede ser menos fiable.
Cómo conseguir confianza en la lectura
- Descargar una biblioteca C# para acceder a la confianza de lectura
- Preparar la imagen de destino y el documento PDF
- Acceder a la Confianza del resultado del OCR
- Recuperar la confianza de páginas, párrafos, líneas, palabras y caracteres
- Compruebe el Opciones propiedad para la elección de palabras alternativas
Instalar con NuGet
Install-Package IronOcr
Descargar DLL
Instalar manualmente en su proyecto
Ejemplo de confianza en la lectura
Tras realizar el OCR en la imagen de entrada, el nivel de confianza del texto se almacena en la propiedad Confidence. Utiliza la sentencia 'using' para deshacerte automáticamente de los objetos. Añade documentos como imágenes y PDFs con las clases OcrImageInput
y OcrPdfInput
, respectivamente. El método Read
devolverá un objeto OcrResult
que permite acceder a la propiedad Confidence.
:path=/static-assets/ocr/content-code-examples/how-to/tesseract-result-confidence-get-confidence.cs
using IronOcr;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Add image
using var imageInput = new OcrImageInput("sample.tiff");
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);
// Get confidence level
double confidence = ocrResult.Confidence;
Imports IronOcr
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Add image
Private imageInput = New OcrImageInput("sample.tiff")
' Perform OCR
Private ocrResult As OcrResult = ocrTesseract.Read(imageInput)
' Get confidence level
Private confidence As Double = ocrResult.Confidence
Obtener confidencias de lectura a distintos niveles
No sólo puede recuperar el nivel de confianza de todo el documento, sino que también puede acceder a los niveles de confianza de cada página, párrafo, línea, palabra y carácter. Además, puede obtener la confianza de un bloque, que representa una colección de uno o varios párrafos situados muy próximos entre sí.
:path=/static-assets/ocr/content-code-examples/how-to/tesseract-result-confidence-confidence-level.cs
// Get page confidence level
double pageConfidence = ocrResult.Pages[0].Confidence;
// Get paragraph confidence level
double paragraphConfidence = ocrResult.Paragraphs[0].Confidence;
// Get line confidence level
double lineConfidence = ocrResult.Lines[0].Confidence;
// Get word confidence level
double wordConfidence = ocrResult.Words[0].Confidence;
// Get character confidence level
double characterConfidence = ocrResult.Characters[0].Confidence;
// Get block confidence level
double blockConfidence = ocrResult.Blocks[0].Confidence;
' Get page confidence level
Dim pageConfidence As Double = ocrResult.Pages(0).Confidence
' Get paragraph confidence level
Dim paragraphConfidence As Double = ocrResult.Paragraphs(0).Confidence
' Get line confidence level
Dim lineConfidence As Double = ocrResult.Lines(0).Confidence
' Get word confidence level
Dim wordConfidence As Double = ocrResult.Words(0).Confidence
' Get character confidence level
Dim characterConfidence As Double = ocrResult.Characters(0).Confidence
' Get block confidence level
Dim blockConfidence As Double = ocrResult.Blocks(0).Confidence
Obtener opciones de caracteres
Aparte del nivel de confianza, hay otra propiedad interesante llamada Opciones. Las opciones contienen una lista de opciones de palabras alternativas y su relevancia estadística. Esta información permite al usuario acceder a otros posibles caracteres.
:path=/static-assets/ocr/content-code-examples/how-to/tesseract-result-confidence-get-choices.cs
using IronOcr;
using static IronOcr.OcrResult;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);
// Get choices
Choice[] choices = ocrResult.Characters[0].Choices;
Imports IronOcr
Imports IronOcr.OcrResult
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Add image
Private imageInput = New OcrImageInput("Potter.tiff")
' Perform OCR
Private ocrResult As OcrResult = ocrTesseract.Read(imageInput)
' Get choices
Private choices() As Choice = ocrResult.Characters(0).Choices