Cómo leer documentos escaneados usando IronOCR
Muchos PDFs contienen texto basado en imágenes que no se puede buscar. IronOCR puede convertir esto en contenido buscable, lo que facilita la localización de información específica y mejora la accesibilidad del documento, especialmente para las personas con discapacidades visuales.
En lugar de copiar o recrear manualmente texto e imágenes, la extracción automatizada garantiza precisión y eficiencia. Esto es particularmente útil para la investigación, documentos legales y creación de contenido, donde el uso de partes específicas de PDFs es común.
Las empresas pueden extraer datos críticos de PDFs para análisis o integración de sistemas, optimizando los flujos de trabajo. Los diseñadores y mercadólogos también pueden extraer imágenes para mejorarlas y reutilizarlas en varios proyectos.
En este tutorial, exploraremos los métodos OcrPdfInput, cubriendo las opciones y parámetros disponibles para mostrar cómo IronOCR simplifica la extracción de texto e imágenes de PDF para varias aplicaciones.
Cómo leer documentos escaneados usando IronOCR
- Descargar la biblioteca de C# para leer documentos escaneados
- Importar el documento escaneado para su procesamiento
- Utiliza el
CargarImagen
método para imágenes oCargarPdf
para PDFs escaneados - Extraer texto usando el
LeerDocumento
método - Guarde o exporte el texto extraído según sea necesario para su uso posterior
Comience a usar IronOCR en su proyecto hoy con una prueba gratuita.
Para usar esta función, también debe instalar el IronOcr.Extension.AdvancedScan paquete.
Ejemplo de Lectura de Documentos Escaneados
Para extraer texto de todas las imágenes dentro de un documento, utiliza el método ReadDocument
. Este método procesa el documento y devuelve un objeto que contiene el texto extraído, al cual se puede acceder mediante la propiedad Text. El ejemplo a continuación demuestra cómo utilizar este método con unmuestra TIFF archivo.
Atención
- El método actualmente solo funciona para inglés, chino, japonés, coreano y alfabeto latino.
-
El uso de la exploración avanzada en .NET Framework requiere que el proyecto se ejecute en arquitectura x64.
Entrada
Código
:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-read-scanned-document.cs
using IronOcr;
using System;
// Instantiate OCR engine
var ocr = new IronTesseract();
// Configure OCR engine
using var input = new OcrInput();
input.LoadImage("potter.tiff");
// Perform OCR
OcrResult result = ocr.ReadDocument(input);
Console.WriteLine(result.Text);
Imports IronOcr
Imports System
' Instantiate OCR engine
Private ocr = New IronTesseract()
' Configure OCR engine
Private input = New OcrInput()
input.LoadImage("potter.tiff")
' Perform OCR
Dim result As OcrResult = ocr.ReadDocument(input)
Console.WriteLine(result.Text)
Salida
Si necesita realizar OCR en un archivo PDF, simplemente reemplace el método LoadImage
con LoadPdf
. Esto permite a IronOCR procesar y extraer texto de PDFs escaneados de la misma manera.