Cómo leer documentos escaneados usando IronOCR
Muchos PDFs contienen texto basado en imágenes que no se puede buscar. IronOCR puede convertir esto en contenido buscable, lo que facilita la localización de información específica y mejora la accesibilidad del documento, especialmente para las personas con discapacidades visuales.
En lugar de copiar o recrear manualmente texto e imágenes, la extracción automatizada garantiza precisión y eficiencia. Esto es particularmente útil para la investigación, documentos legales y creación de contenido, donde el uso de partes específicas de PDFs es común.
Las empresas pueden extraer datos críticos de PDFs para análisis o integración de sistemas, optimizando los flujos de trabajo. Los diseñadores y mercadólogos también pueden extraer imágenes para mejorarlas y reutilizarlas en varios proyectos.
En este tutorial, exploraremos los métodos OcrPdfInput, cubriendo las opciones y parámetros disponibles para mostrar cómo IronOCR simplifica la extracción de texto e imágenes de PDF para varias aplicaciones.
Cómo leer documentos escaneados usando IronOCR
- Descargar la biblioteca de C# para leer documentos escaneados
- Importar el documento escaneado para su procesamiento
- Use el método
LoadImage
para imágenes oLoadPdf
para PDF escaneados - Extraer texto utilizando el método
ReadDocument
- Guarde o exporte el texto extraído según sea necesario para su uso posterior
Comience a usar IronOCR en su proyecto hoy con una prueba gratuita.
Para usar esta función, también debe instalar el paquete IronOcr.Extension.AdvancedScan.
Ejemplo de Lectura de Documentos Escaneados
Para extraer texto de todas las imágenes dentro de un documento, use el método ReadDocument
. Este método procesa el documento y devuelve un objeto que contiene el texto extraído, al cual se puede acceder mediante la propiedad Text. El siguiente ejemplo muestra cómo usar este método con un archivo TIFF de muestra.
Atención
- El método actualmente solo funciona para inglés, chino, japonés, coreano y alfabeto latino.
El uso de la exploración avanzada en .NET Framework requiere que el proyecto se ejecute en arquitectura x64.
Entrada
Código
:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-read-scanned-document.cs
using IronOcr;
using System;
// Instantiate OCR engine
var ocr = new IronTesseract();
// Configure OCR engine
using var input = new OcrInput();
input.LoadImage("potter.tiff");
// Perform OCR
OcrResult result = ocr.ReadDocument(input);
Console.WriteLine(result.Text);
Imports IronOcr
Imports System
' Instantiate OCR engine
Private ocr = New IronTesseract()
' Configure OCR engine
Private input = New OcrInput()
input.LoadImage("potter.tiff")
' Perform OCR
Dim result As OcrResult = ocr.ReadDocument(input)
Console.WriteLine(result.Text)
Salida
Si necesitas realizar OCR en un archivo PDF, simplemente reemplaza el método LoadImage
con LoadPdf
. Esto permite a IronOCR procesar y extraer texto de PDFs escaneados de la misma manera.