OCR Multilingüe LOPDGDD: Euskera y Cooficiales

VB C#

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

ocrTesseract.Language = OcrLanguage.Arabic;

using (var ocrInput = new OcrInput())
{
    ocrInput.LoadImage(@"images\arabic.gif");
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}

// Example with a Custom Trained Font Being used:

var ocrTesseractCustomerLang = new IronTesseract();
ocrTesseractCustomerLang.UseCustomTesseractLanguageFile("custom_tesseract_files/custom.traineddata");
ocrTesseractCustomerLang.AddSecondaryLanguage(OcrLanguage.EnglishBest);

using (var ocrInput = new OcrInput())
{
    ocrInput.LoadPdf(@"images\mixed-lang.pdf");
    var ocrResult = ocrTesseractCustomerLang.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}

Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()

ocrTesseract.Language = OcrLanguage.Arabic

Using ocrInput As New OcrInput()
	ocrInput.LoadImage("images\arabic.gif")
	Dim ocrResult = ocrTesseract.Read(ocrInput)
	Console.WriteLine(ocrResult.Text)
End Using

' Example with a Custom Trained Font Being used:

Dim ocrTesseractCustomerLang = New IronTesseract()
ocrTesseractCustomerLang.UseCustomTesseractLanguageFile("custom_tesseract_files/custom.traineddata")
ocrTesseractCustomerLang.AddSecondaryLanguage(OcrLanguage.EnglishBest)

Using ocrInput As New OcrInput()
	ocrInput.LoadPdf("images\mixed-lang.pdf")
	Dim ocrResult = ocrTesseractCustomerLang.Read(ocrInput)
	Console.WriteLine(ocrResult.Text)
End Using

Install-Package IronOcr

OCR Multilingüe LOPDGDD: Euskera y Cooficiales

Compatibilidad con idiomas de IronOCR

IronOCR admite 125 idiomas internacionales. Además del inglés, que se instala por defecto, los paquetes de idiomas adicionales se pueden agregar a su proyecto .NET a través de NuGet o descargarlos de nuestra Página de Idiomas. En España, el soporte multilingüe es especialmente relevante: la LOPDGDD exige que el tratamiento de datos personales sea preciso y trazable con independencia del idioma del documento, por lo que un OCR con cobertura de los cuatro idiomas cooficiales del país es un requisito de cumplimiento, no una opción.

La mayoría de los idiomas están disponibles en Fast, Standard (recomendado), y Best calidad. La opción de calidad Best puede ofrecer resultados más precisos, pero también será más lenta en tiempo de procesamiento.

Aplicaciones regulatorias en España

España es un país con cuatro lenguas cooficiales: castellano, catalán, euskera (vasco) y gallego. Esta pluralidad lingüística no es únicamente cultural; tiene implicaciones regulatorias directas que los sistemas de OCR deben contemplar.

LOPDGDD y precisión multilingüe. La Ley Orgánica de Protección de Datos y Garantía de los Derechos Digitales (LOPDGDD), que transpone el RGPD al ordenamiento jurídico español, exige que los datos personales extraídos de documentos sean exactos y estén actualizados. Cuando un documento contiene nombres propios, direcciones o referencias fiscales en catalán, euskera o gallego, un motor OCR que no maneje correctamente estos idiomas puede generar errores que constituyan una infracción del principio de exactitud. La AEPD (Agencia Española de Protección de Datos) ha sancionado a organizaciones por inexactitudes en el tratamiento automatizado de datos personales.

TicketBAI y el euskera en Bizkaia. El sistema TicketBAI, implantado en los territorios históricos de Bizkaia, Gipuzkoa y Araba, obliga a los contribuyentes a emitir y conservar tiques de venta con firma electrónica. Muchos de estos documentos incluyen campos en euskera, como Faktura-zenbakia (número de factura) o BEZ-oinarria (base imponible del IVA). Los sistemas de archivo y auditoría que emplean OCR para indexar estos tiques deben reconocer correctamente el texto en euskera para cumplir con las obligaciones de conservación ante la Hacienda Foral correspondiente.

eIDAS y documentos multilingües. Los certificados digitales emitidos por la FNMT (Fábrica Nacional de Moneda y Timbre) en el marco del reglamento eIDAS pueden acompañar documentos redactados en cualquiera de las lenguas cooficiales. La extracción de metadatos de firma mediante OCR requiere que el motor reconozca correctamente el texto independientemente del idioma del documento firmado.

Ventaja competitiva en el sector público. Las administraciones autonómicas —Generalitat de Catalunya, Eusko Jaurlaritza, Xunta de Galicia— generan volúmenes masivos de documentación en sus respectivas lenguas. Las empresas que ofrezcan soluciones de digitalización con OCR preciso en todos los idiomas cooficiales tendrán una ventaja clara en licitaciones públicas relacionadas con digitalización documental y gestión de expedientes electrónicos.

Ejemplo práctico

Escenario: Una asesoría fiscal de Bilbao necesita digitalizar e indexar automáticamente tiques TicketBAI emitidos por sus clientes del País Vasco. Los tiques están redactados en euskera e incluyen el Número de identificación fiscal (NIF/CIF) del emisor y el BEZ-oinarria (base imponible). El sistema debe extraer estos campos con precisión para alimentar el software de contabilidad y generar el rastro de auditoría exigido por la Hacienda Foral de Bizkaia.

La configuración recomendada con IronOCR es la siguiente:

using IronOcr;

// Instalar: IronOcr + IronOcr.Languages.Basque vía NuGet
var ocr = new IronTesseract();
ocr.Language = OcrLanguage.BasqueBest; // Euskera, calidad máxima

using var input = new OcrInput();
input.LoadImage("ticketbai_bizkaia_2024_001.tiff");

OcrResult result = ocr.Read(input);

// Extraer campos clave del tique TicketBAI
Console.WriteLine("Texto extraído del tique TicketBAI:");
Console.WriteLine(result.Text);
// Salida esperada incluye: NIF/CIF, Faktura-zenbakia, BEZ-oinarria, IVA tipo aplicable

using IronOcr;

// Instalar: IronOcr + IronOcr.Languages.Basque vía NuGet
var ocr = new IronTesseract();
ocr.Language = OcrLanguage.BasqueBest; // Euskera, calidad máxima

using var input = new OcrInput();
input.LoadImage("ticketbai_bizkaia_2024_001.tiff");

OcrResult result = ocr.Read(input);

// Extraer campos clave del tique TicketBAI
Console.WriteLine("Texto extraído del tique TicketBAI:");
Console.WriteLine(result.Text);
// Salida esperada incluye: NIF/CIF, Faktura-zenbakia, BEZ-oinarria, IVA tipo aplicable

Imports IronOcr

' Instalar: IronOcr + IronOcr.Languages.Basque vía NuGet
Dim ocr As New IronTesseract()
ocr.Language = OcrLanguage.BasqueBest ' Euskera, calidad máxima

Using input As New OcrInput()
    input.LoadImage("ticketbai_bizkaia_2024_001.tiff")

    Dim result As OcrResult = ocr.Read(input)

    ' Extraer campos clave del tique TicketBAI
    Console.WriteLine("Texto extraído del tique TicketBAI:")
    Console.WriteLine(result.Text)
    ' Salida esperada incluye: NIF/CIF, Faktura-zenbakia, BEZ-oinarria, IVA tipo aplicable
End Using

$vbLabelText $csharpLabel

Con el paquete IronOcr.Languages.Basque en modo Best, IronOCR reconoce con precisión los caracteres específicos del euskera (como tx, tz o ñ en contextos mixtos), garantizando que los datos extraídos sean fiables para el cumplimiento ante la AEPD y la Hacienda Foral.

Conclusión

La compatibilidad multilingüe de IronOCR con los 125 idiomas disponibles, incluyendo los cuatro idiomas cooficiales de España, convierte a esta biblioteca en una solución idónea para proyectos de digitalización en el mercado español. El cumplimiento de la LOPDGDD, la integración con flujos TicketBAI supervisados por la AEPD, y la compatibilidad con documentos firmados bajo eIDAS con certificados FNMT son casos de uso reales que IronOCR resuelve con una configuración mínima. Si su organización opera en entornos regulados en España, IronOCR proporciona la precisión multilingüe necesaria para garantizar la conformidad normativa en cada extracción de texto.

Explore el OCR en varios idiomas con IronOCR.