El 6 de Octubre comenzó la serie de Masterclasses de Zylk sobre Big Data en el ecosistema Hadoop. A través de esta serie de sesiones, se pretenden tratar los steps fundamentales que se siguen a la hora de procesar información desde la perspectiva del clúster de Big Data, echando un vistazo a las herramientas que más utilizamos, todas parte del ecosistema de Hortonworks.
Los temas a tratar en estas sesiones se desglosan de la siguiente manera:
Como se ha mencionado, el pasado viernes arrancó esta serie de sesiones con la Masterclass de Nifi.
La masterclass fue impartida por nuestro CTO Gustavo Fernández y en todo momento estuvieron tutorizados por miembros del equipo de Big Data de Zylk: Jose Fernando, Iñigo y Alejandro
Apache NiFi es un proyecto de software de la Fundación Apache Software que permite la automatización del flujo de datos entre sistemas. Se puede describir como la logística de datos. Similar a cómo los servicios de paquetería mueven y rastrean paquetes, Apache NiFi ayuda a mover y rastrear datos. El proyecto está escrito utilizando la programación basada en flujo y proporciona una interfaz de usuario basada en web para gestionar los flujos de datos en tiempo real.
En la masterclass se procedió primero a instalar y arrancar NiFi en entorno standalone, ver los logs y acceder a la interfaz. Posteriormente, se dieron las pautas para crear y ejecutar flujos incluyendo la explicación de diversos conceptos relacionados con NiFi: flow file, data provenance, back pressure, relación y su autoterminación, process GROUP, NiFi expression-language, regular expression y Grok expression, AVRO schema etc. Todo ello, a través de la configuración de seis flujos distintos acabando en su integración con Kafka.