Procesando ficheros con columnas de tamaño fijo con NiFi

Gustavo Fernández

Como procesar de manera óptima los ficheros con columnas de tamaño fijo usando expresiones Grok en NiFi

Supongamos que tenemos un conjunto de ficheros que se han generado con un programa que exporta los datos de las columnas con un tamaño fijo. Por ejemplo un programa que exporta los siguientes cuatro campos

FechaAlta (YYYYMMDD) 8 posiciones
Estado Civil (0|1|2) 1 posición
Edad (0-99) 2 posiciones
Genero (0|1|2) 1 posición

Cada registro será de la siguiente forma

202001030561 -> que representa un registro con fechas de alta 2020/01/03, estado civil 0, 56 años y genero 1
2020010309 1 -> que representa un registro con fechas de alta 2020/01/03, estado civil 0, 9 años y genero 1
202001032272 -> que representa un registro con fechas de alta 2020/01/03, estado civil 2, 27 años y genero 2

La cuestión es cómo usar NiFi para procesar estos ficheros. Si buscamos en internet la forma clásica de hacerlo es usando un replaceText (linea a linea) para convertir los ficheros en csv separados por punto y coma (;)

20200103;0;56;1 -> que representa un registro con fechas de alta 2020/01/03, estado civil 0, 56 años y genero 1
20200103;0;9;1 -> que representa un registro con fechas de alta 2020/01/03, estado civil 0, 9 años y genero 1
20200103;2;27;2 -> que representa un registro con fechas de alta 2020/01/03, estado civil 2, 27 años y genero 2

Pero existe otra manera de mapear estos ficheros usando expresiones GROK y así poder usar directamente un ConvertRecord sin necesidad de realizar un tratamiento previo del fichero de texto. Para ello haremos lo siguiente

Crearemos un fichero de patterns de Grok
Usaremos dicho fichero para crear un GrokReader capaz de mapera los campos directamente

Para el caso que nos ocupa el fichero de pattern será

FECHA_ALTA .{8} ESTADO_CIVIL .{1} EDAD .{2} GENERO .{1}

FILA %{FECHA_ALTA:fecha_alta}%{ESTADO_CIVIL:estado_civil}%{EDAD:edad}%{GENERO:genero}
Una vez tenemos el fichero de pattern podremos configurar el RecordReader tipo Grok para que haga uso de este pattern y poder procesar el fichero en entrada directamente a un Record

Una vez configurado podemos poner en marcha el proceso y ver que los records se generan correctamente

Vemos que se añaden dos campos extra, uno (_raw) que contiene el registro antes de su procesado y otro (stackTrace) que contendrá la información relacionada con los posibles fallos que se puedan producir al procesar cada linea del fichero.

Dejo aquí una template de ejemplo con un flujo de prueba basado en lo explicado en este post

Si te ha parecido interesante comparte este post en RRS

Leer más sobre temas relacionados

liferay

Cómo mantener el portal del cliente actualizado

Las preferencias de los clientes han cambiado drásticamente. Solo en los últimos años, los clientes se han tenido que adaptar a una pandemia

15 de julio de 2024 No hay comentarios

liferay

Unifica la Experiencia de Usuario con un portal de clientes

La mayoría de las empresas tienen múltiples sistemas implementados para ayudar a atender a sus clientes. Analizamos cómo superar este desafío y qué estrategias se necesitan para brindar una experiencia de cliente unificada.

4 de julio de 2024 No hay comentarios

CAPSUL-IA investiga estrategias para universalizar el uso de la IA en la Industria

CAPSUL-IA. Encapsulación de Soluciones basadas en la IA para acelerar su adopción.

El Departamento de I+D+i de ZYLK ha empezado a trabajar en el proyecto CAPSUL-IA, cuyo objetivo es investigar nuevas soluciones que permitan facilitar y agilizar

22 de abril de 2024 No hay comentarios

tech

El Empoderamiento de la Mujer en la Era Digital

La presente década está siendo protagonizada por el proceso de digitalización y la aparición de tecnologías disruptivas que prometen poner patas arriba el mundo tal

6 de marzo de 2024 No hay comentarios

liferay

Liferay y ChatGPT: La Fusión de la Experiencia Digital y la Inteligencia Artificial

En un mundo donde la comunicación digital desempeña un papel fundamental en la experiencia del cliente, la integración de tecnologías avanzadas como el procesamiento del

1 de marzo de 2024 No hay comentarios

G-SMART 5.0, respaldado por el programa Hazitek de SPRI y liderado por el Grupo Gestamp busca impulsar la Smart Factory en la industria vasca

innovación / i+d

GSMART 5.0 Avanzando hacia la Smart Factory. Innovación Tecnológica en el sector Industrial del País Vasco

En la actualidad industrial, el desarrollo tecnológico ha creado un entorno marcado por la competencia entre regiones tecnológicamente avanzadas y una constante incertidumbre en la

30 de diciembre de 2023 No hay comentarios

Deja un comentario Cancelar respuesta

Busca por categorías