Open IT Experts for Enterprise

Zylk empresa de desarrollo de ecommerce

Arquitectura de Big Data para la ingesta y explotación del dato basada en Hortonworks

Iñigo Angulo
Iñigo Angulo

Flujo del dato en una arquitectura de microservicios

La arquitectura descrita en este artículo cubre las necesidades de un caso de uso de Big Data caracterizado por la ingesta de datos tanto en procesos en lotes (Batch) como en tiempo real (Streaming), orientado a la transformación y el enriquecimiento de los datos, y permitiendo su explotación desde las perspectivas de negocio y descubrimiento de datos (Data Science). Para su implementación, se han utilizado tecnologías del ecosistema Hadoop, concretamente de los stacks HDP y HDF 2.5 de Hortonworks.

El caso de uso gira entorno a la monitorización del estado y calidad de un servicio de internet. Entre sus orígenes de datos encontramos fuentes que se procesan diariamente en lotes, y datos de monitorización que recogen medidas del estado de la red en tiempo real.

La arquitectura propuesta se describe en dos fases que iremos describiendo en sucesivos posts en profundidad. En primer lugar, la ingesta y almacenamiento de los datos. Y a continuación, su análisis y explotación.

  • Para la primera fase, se propone una arquitectura de tipo lambda que se caracteriza por el balanceo de la carga de procesado en dos ramas independientes, una destinada al procesado en Batch, y la otra al Streaming.

Arquitectura de Big Data para la ingesta y explotación del dato basada en Hortonworks

 

  • En la segunda fase de la arquitectura, se describen varias herramientas destinadas al almacenamiento, computo distribuido, y presentación de los datos. Para unirlas, se utilizan un conjunto de microservicios que nos van a permitir desarrollar la lógica de negocio del caso de uso. Por último, la presentación de los datos se realiza a través de dos APIs que ofrecerán funcionalidades diferentes y enfocadas a perspectivas concretas, como visión de negocio o Data Science. La ventaja de una arquitectura como la que aquí se describe es su modularidad en cuanto a composición, lo que se traduce en una minuciosa adaptación a las necesidades de cada caso de uso.

 

Arquitectura de Big Data para la ingesta y explotación del dato basada en Hortonworks

El cluster en el que se ha implementado esta arquitectura dispone de 20 nodos de cálculo, cada uno con 16 GB de RAM y 500 GB de disco. Los recursos del cluster se reparten entre varios servicios, algunos de los cuales no son utilizados para esta arquitectura, que dispone de:

  • 3 nodos de Apache Nifi

  • 3 brokers de Apache Kafka

  • 1 nodo de Apache Flink

  • 9 RegionServers de Apache Hbase

  • y 16 NodeManagers para YARN

 

Enlaces:

https://es.hortonworks.com/

http://lambda-architecture.net/

 

 

Si te ha parecido interesante comparte este post en RRS

Facebook
LinkedIn
Telegram
Email

Leer más sobre temas relacionados

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *