Arquitectura de Big Data para la ingesta y explotación del dato basada en Hortonworks

Iñigo Angulo

Flujo del dato en una arquitectura de microservicios

La arquitectura descrita en este artículo cubre las necesidades de un caso de uso de Big Data caracterizado por la ingesta de datos tanto en procesos en lotes (Batch) como en tiempo real (Streaming), orientado a la transformación y el enriquecimiento de los datos, y permitiendo su explotación desde las perspectivas de negocio y descubrimiento de datos (Data Science). Para su implementación, se han utilizado tecnologías del ecosistema Hadoop, concretamente de los stacks HDP y HDF 2.5 de Hortonworks.

El caso de uso gira entorno a la monitorización del estado y calidad de un servicio de internet. Entre sus orígenes de datos encontramos fuentes que se procesan diariamente en lotes, y datos de monitorización que recogen medidas del estado de la red en tiempo real.

La arquitectura propuesta se describe en dos fases que iremos describiendo en sucesivos posts en profundidad. En primer lugar, la ingesta y almacenamiento de los datos. Y a continuación, su análisis y explotación.

Para la primera fase, se propone una arquitectura de tipo lambda que se caracteriza por el balanceo de la carga de procesado en dos ramas independientes, una destinada al procesado en Batch, y la otra al Streaming.

En la segunda fase de la arquitectura, se describen varias herramientas destinadas al almacenamiento, computo distribuido, y presentación de los datos. Para unirlas, se utilizan un conjunto de microservicios que nos van a permitir desarrollar la lógica de negocio del caso de uso. Por último, la presentación de los datos se realiza a través de dos APIs que ofrecerán funcionalidades diferentes y enfocadas a perspectivas concretas, como visión de negocio o Data Science. La ventaja de una arquitectura como la que aquí se describe es su modularidad en cuanto a composición, lo que se traduce en una minuciosa adaptación a las necesidades de cada caso de uso.

El cluster en el que se ha implementado esta arquitectura dispone de 20 nodos de cálculo, cada uno con 16 GB de RAM y 500 GB de disco. Los recursos del cluster se reparten entre varios servicios, algunos de los cuales no son utilizados para esta arquitectura, que dispone de:

3 nodos de Apache Nifi
3 brokers de Apache Kafka
1 nodo de Apache Flink
9 RegionServers de Apache Hbase
y 16 NodeManagers para YARN

Enlaces:

https://es.hortonworks.com/

http://lambda-architecture.net/

Si te ha parecido interesante comparte este post en RRS

Leer más sobre temas relacionados

tech

El Empoderamiento de la Mujer en la Era Digital

La presente década está siendo protagonizada por el proceso de digitalización y la aparición de tecnologías disruptivas que prometen poner patas arriba el mundo tal

6 de marzo de 2024 No hay comentarios

liferay

Liferay y ChatGPT: La Fusión de la Experiencia Digital y la Inteligencia Artificial

En un mundo donde la comunicación digital desempeña un papel fundamental en la experiencia del cliente, la integración de tecnologías avanzadas como el procesamiento del

1 de marzo de 2024 No hay comentarios

G-SMART 5.0, respaldado por el programa Hazitek de SPRI y liderado por el Grupo Gestamp busca impulsar la Smart Factory en la industria vasca

innovación / i+d

GSMART 5.0 Avanzando hacia la Smart Factory. Innovación Tecnológica en el sector Industrial del País Vasco

En la actualidad industrial, el desarrollo tecnológico ha creado un entorno marcado por la competencia entre regiones tecnológicamente avanzadas y una constante incertidumbre en la

30 de diciembre de 2023 No hay comentarios

Indatia trabaja el paradigma smart factory con IA y el tratamiento de los datos

cloudera

INDATIA. Nuevos desarrollos para la gestión de los datos y la Inteligencia Artificial

El futuro de la industria actual, pasa por impulsar lo que se denomina Industria 4.0, donde los datos producidos por la fabricación se convierten en

29 de diciembre de 2023 No hay comentarios

plataforma digital de control de calidad para la fabricación con cero defectos mediante inteligencia artificial

innovación / i+d

KAIA: Plataforma digital de control de calidad para la fabricación con cero defectos mediante inteligencia artificial

El proyecto KAIA es una iniciativa surgida en 2021 y llevada a cabo gracias al programa Hazitek de SPRI y los Fondos FEDER Europeos, en

28 de diciembre de 2023 No hay comentarios

Airsafe es un proyecto de Hazitek para monitorizar la calidad del aire en tiempo real

cloudera

AIRSAFE: control y monitorización real-time de la calidad del aire

A lo largo de los últimos años ha aumentado la concienciación de la calidad del aire en espacios públicos cerrados como hospitales, colegios o residencias,

26 de diciembre de 2023 No hay comentarios

Deja un comentario Cancelar respuesta

Busca por categorías