Primera Masterclass Big Data de Zylk

Mikel Aguirre

Ingesta y pre-procesado de datos a través de NiFi

El 6 de Octubre comenzó la serie de Masterclasses de Zylk sobre Big Data en el ecosistema Hadoop. A través de esta serie de sesiones, se pretenden tratar los steps fundamentales que se siguen a la hora de procesar información desde la perspectiva del clúster de Big Data, echando un vistazo a las herramientas que más utilizamos, todas parte del ecosistema de Hortonworks.

Los temas a tratar en estas sesiones se desglosan de la siguiente manera:

Ingesta y preprocesado de datos a través de NiFi.
Almacenamiento en HBase.
Procesado streaming con Flink.
Explotación, tanto online como offline, utilizando Phoenix, Hive y el API de HBase.
Visión de una arquitectura de micro-servicios basada en YARN y Slider para enriquecimiento de los datos.

Como se ha mencionado, el pasado viernes arrancó esta serie de sesiones con la Masterclass de Nifi.

La masterclass fue impartida por nuestro CTO Gustavo Fernández y en todo momento estuvieron tutorizados por miembros del equipo de Big Data de Zylk: Jose Fernando, Iñigo y Alejandro

Apache NiFi es un proyecto de software de la Fundación Apache Software que permite la automatización del flujo de datos entre sistemas. Se puede describir como la logística de datos. Similar a cómo los servicios de paquetería mueven y rastrean paquetes, Apache NiFi ayuda a mover y rastrear datos. El proyecto está escrito utilizando la programación basada en flujo y proporciona una interfaz de usuario basada en web para gestionar los flujos de datos en tiempo real.

En la masterclass se procedió primero a instalar y arrancar NiFi en entorno standalone, ver los logs y acceder a la interfaz. Posteriormente, se dieron las pautas para crear y ejecutar flujos incluyendo la explicación de diversos conceptos relacionados con NiFi: flow file, data provenance, back pressure, relación y su autoterminación, process GROUP, NiFi expression-language, regular expression y Grok expression, AVRO schema etc. Todo ello, a través de la configuración de seis flujos distintos acabando en su integración con Kafka.

Si te ha parecido interesante comparte este post en RRS

Leer más sobre temas relacionados

liferay

Cómo mantener el portal del cliente actualizado

Las preferencias de los clientes han cambiado drásticamente. Solo en los últimos años, los clientes se han tenido que adaptar a una pandemia

15 de julio de 2024 No hay comentarios

liferay

Unifica la Experiencia de Usuario con un portal de clientes

La mayoría de las empresas tienen múltiples sistemas implementados para ayudar a atender a sus clientes. Analizamos cómo superar este desafío y qué estrategias se necesitan para brindar una experiencia de cliente unificada.

4 de julio de 2024 No hay comentarios

CAPSUL-IA investiga estrategias para universalizar el uso de la IA en la Industria

CAPSUL-IA. Encapsulación de Soluciones basadas en la IA para acelerar su adopción.

El Departamento de I+D+i de ZYLK ha empezado a trabajar en el proyecto CAPSUL-IA, cuyo objetivo es investigar nuevas soluciones que permitan facilitar y agilizar

22 de abril de 2024 No hay comentarios

tech

El Empoderamiento de la Mujer en la Era Digital

La presente década está siendo protagonizada por el proceso de digitalización y la aparición de tecnologías disruptivas que prometen poner patas arriba el mundo tal

6 de marzo de 2024 No hay comentarios

liferay

Liferay y ChatGPT: La Fusión de la Experiencia Digital y la Inteligencia Artificial

En un mundo donde la comunicación digital desempeña un papel fundamental en la experiencia del cliente, la integración de tecnologías avanzadas como el procesamiento del

1 de marzo de 2024 No hay comentarios

G-SMART 5.0, respaldado por el programa Hazitek de SPRI y liderado por el Grupo Gestamp busca impulsar la Smart Factory en la industria vasca

innovación / i+d

GSMART 5.0 Avanzando hacia la Smart Factory. Innovación Tecnológica en el sector Industrial del País Vasco

En la actualidad industrial, el desarrollo tecnológico ha creado un entorno marcado por la competencia entre regiones tecnológicamente avanzadas y una constante incertidumbre en la

30 de diciembre de 2023 No hay comentarios

Deja un comentario Cancelar respuesta

Busca por categorías