Flujo del dato en una arquitectura de microservicios
La arquitectura descrita en este artículo cubre las necesidades de un caso de uso de Big Data caracterizado por la ingesta de datos tanto en procesos en lotes (Batch) como en tiempo real (Streaming), orientado a la transformación y el enriquecimiento de los datos, y permitiendo su explotación desde las perspectivas de negocio y descubrimiento de datos (Data Science). Para su implementación, se han utilizado tecnologías del ecosistema Hadoop, concretamente de los stacks HDP y HDF 2.5 de Hortonworks.
El caso de uso gira entorno a la monitorización del estado y calidad de un servicio de internet. Entre sus orígenes de datos encontramos fuentes que se procesan diariamente en lotes, y datos de monitorización que recogen medidas del estado de la red en tiempo real.
La arquitectura propuesta se describe en dos fases que iremos describiendo en sucesivos posts en profundidad. En primer lugar, la ingesta y almacenamiento de los datos. Y a continuación, su análisis y explotación.
-
Para la primera fase, se propone una arquitectura de tipo lambda que se caracteriza por el balanceo de la carga de procesado en dos ramas independientes, una destinada al procesado en Batch, y la otra al Streaming.
-
En la segunda fase de la arquitectura, se describen varias herramientas destinadas al almacenamiento, computo distribuido, y presentación de los datos. Para unirlas, se utilizan un conjunto de microservicios que nos van a permitir desarrollar la lógica de negocio del caso de uso. Por último, la presentación de los datos se realiza a través de dos APIs que ofrecerán funcionalidades diferentes y enfocadas a perspectivas concretas, como visión de negocio o Data Science. La ventaja de una arquitectura como la que aquí se describe es su modularidad en cuanto a composición, lo que se traduce en una minuciosa adaptación a las necesidades de cada caso de uso.
El cluster en el que se ha implementado esta arquitectura dispone de 20 nodos de cálculo, cada uno con 16 GB de RAM y 500 GB de disco. Los recursos del cluster se reparten entre varios servicios, algunos de los cuales no son utilizados para esta arquitectura, que dispone de:
-
3 nodos de Apache Nifi
-
3 brokers de Apache Kafka
-
1 nodo de Apache Flink
-
9 RegionServers de Apache Hbase
-
y 16 NodeManagers para YARN
Enlaces:
http://lambda-architecture.net/