TIFF a PDF Buscable para Facturae y SII (AEAT)
La clase IronTesseract C# OCR puede convertir automáticamente TIFF a PDF buscable. A continuación, se muestra un ejemplo de cómo puede lograr esta funcionalidad usando IronTesseract. Primero nos aseguraremos de que la biblioteca necesaria esté importada e inicializada correctamente, y luego la utilizaremos para realizar la conversión. En el contexto español, esta capacidad es fundamental para cumplir con el Real Decreto 1619/2012, que obliga a conservar las facturas durante diez años, y con el sistema SII (Suministro Inmediato de Información) de la AEAT, que requiere que las facturas digitalizadas sean buscables e indexables.
Aplicaciones regulatorias en España
La conversión de TIFF a PDF buscable no es únicamente una optimización técnica: en España tiene implicaciones regulatorias concretas que afectan a miles de empresas obligadas a tributar bajo el sistema Facturae o a reportar operaciones al SII.
Real Decreto 1619/2012 y conservación de facturas. Este real decreto establece que las facturas deben conservarse durante un mínimo de diez años en formato que garantice su legibilidad, integridad y autenticidad. Las facturas escaneadas en papel que permanezcan como archivos TIFF sin capacidad de búsqueda no cumplen plenamente con este requisito, ya que no permiten la localización eficiente de datos fiscales durante una inspección de la AEAT. Convertirlas a PDF buscable mediante OCR resuelve este problema de forma directa.
Facturae y digitalización certificada. El formato Facturae (XML estructurado con firma electrónica eIDAS) es el estándar de facturación electrónica en España para las Administraciones Públicas. Sin embargo, numerosas pymes todavía reciben facturas en papel que deben ser digitalizadas. La conversión TIFF → PDF buscable es el primer paso en el flujo de digitalización certificada: permite que los sistemas de gestión documental indexen el Número de factura, el NIF/CIF del proveedor, la base imponible y el IVA soportado, datos esenciales para la conciliación con las declaraciones del SII.
SII y trazabilidad documental. El SII (Suministro Inmediato de Información) de la AEAT exige que las empresas con facturación superior a seis millones de euros anuales comuniquen cada factura en un plazo de cuatro días. Para ello, los datos de la factura deben ser extraíbles de forma automatizada. Un archivo TIFF no indexado es un cuello de botella en este flujo; un PDF buscable generado con IronOCR lo elimina.
VeriFactu y auditoría documental. El Real Decreto 1007/2023, que regula el sistema VERI*FACTU, establece que los sistemas informáticos de facturación deben generar registros de facturación verificables. La conversión de documentos físicos a PDF buscable con datos estructurados facilita la integración en flujos VeriFactu y la verificación posterior en sede.agenciatributaria.gob.es.
Ejemplo práctico
Escenario: Una empresa española recibe mensualmente cientos de facturas en papel de sus proveedores. El departamento de contabilidad escanea estas facturas como archivos TIFF y necesita convertirlas a PDF/A buscable para archivarlas durante el período de diez años exigido por el Real Decreto 1619/2012 y facilitar las consultas del SII ante la AEAT.
using IronOcr;
var ocr = new IronTesseract();
ocr.Language = OcrLanguage.SpanishBest; // Español peninsular, calidad máxima
// Ruta del TIFF escaneado (factura papel de proveedor)
string inputTiff = @"facturas\proveedor_NIF_B12345678_2024_001.tiff";
// Ruta de salida PDF buscable para archivo SII
string outputPdf = @"archivo_sii\proveedor_NIF_B12345678_2024_001_buscable.pdf";
using var input = new OcrInput();
input.LoadMultiFrameTiff(inputTiff);
OcrResult result = ocr.Read(input);
// El PDF buscable contendrá el texto OCR superpuesto sobre la imagen escaneada
result.SaveAsPdf(outputPdf);
Console.WriteLine($"Factura convertida: {outputPdf}");
Console.WriteLine($"Campos extraídos detectados:");
Console.WriteLine($" Número de factura, NIF/CIF, base imponible, IVA soportado");
Console.WriteLine($" Texto completo indexado: {result.Text.Length} caracteres");
using IronOcr;
var ocr = new IronTesseract();
ocr.Language = OcrLanguage.SpanishBest; // Español peninsular, calidad máxima
// Ruta del TIFF escaneado (factura papel de proveedor)
string inputTiff = @"facturas\proveedor_NIF_B12345678_2024_001.tiff";
// Ruta de salida PDF buscable para archivo SII
string outputPdf = @"archivo_sii\proveedor_NIF_B12345678_2024_001_buscable.pdf";
using var input = new OcrInput();
input.LoadMultiFrameTiff(inputTiff);
OcrResult result = ocr.Read(input);
// El PDF buscable contendrá el texto OCR superpuesto sobre la imagen escaneada
result.SaveAsPdf(outputPdf);
Console.WriteLine($"Factura convertida: {outputPdf}");
Console.WriteLine($"Campos extraídos detectados:");
Console.WriteLine($" Número de factura, NIF/CIF, base imponible, IVA soportado");
Console.WriteLine($" Texto completo indexado: {result.Text.Length} caracteres");
Imports IronOcr
Dim ocr As New IronTesseract()
ocr.Language = OcrLanguage.SpanishBest ' Español peninsular, calidad máxima
' Ruta del TIFF escaneado (factura papel de proveedor)
Dim inputTiff As String = "facturas\proveedor_NIF_B12345678_2024_001.tiff"
' Ruta de salida PDF buscable para archivo SII
Dim outputPdf As String = "archivo_sii\proveedor_NIF_B12345678_2024_001_buscable.pdf"
Using input As New OcrInput()
input.LoadMultiFrameTiff(inputTiff)
Dim result As OcrResult = ocr.Read(input)
' El PDF buscable contendrá el texto OCR superpuesto sobre la imagen escaneada
result.SaveAsPdf(outputPdf)
End Using
Console.WriteLine($"Factura convertida: {outputPdf}")
Console.WriteLine("Campos extraídos detectados:")
Console.WriteLine(" Número de factura, NIF/CIF, base imponible, IVA soportado")
Console.WriteLine($" Texto completo indexado: {result.Text.Length} caracteres")
El PDF resultante contiene la imagen original del documento más una capa de texto buscable generada por OCR, lo que permite búsquedas por Número de factura, NIF/CIF, base imponible o IVA soportado directamente desde el gestor documental, cumpliendo con los requisitos de conservación de la AEAT.
Conclusión
La conversión de TIFF a PDF buscable con IronOCR es una solución de alto valor para las empresas españolas obligadas a cumplir con el Real Decreto 1619/2012, el SII de la AEAT, y los flujos de digitalización certificada bajo Facturae. Al generar documentos PDF con capa de texto indexable, IronOCR facilita la conciliación fiscal, la respuesta a requerimientos de la AEAT y la integración con sistemas VERI*FACTU. Implemente esta conversión en su flujo de gestión documental y garantice la conformidad normativa en cada factura archivada.
Descubra cómo crear archivos PDF con capacidad de búsqueda con IronOCR

