Valoramos las diferencias entre las dos distribuciones más populares de Apache Hadoop
Vamos a empezar desde el principio explicando brevemente en que consiste ese término que se ha puesto tan de moda “Big Data”. Big Data no es más que un conjunto masivo de datos generados cada día por organizaciones y empresas cuya gestión es extremadamente compleja y que hasta la fecha eran desperdiciados no pudiendo sacar ninguna conclusión de ellos. Por eso nació la herramienta Apache Hadoop, que permite el almacenamiento distribuido y el procesamiento de grandes conjuntos de datos en base a un hardware comercial. Hadoop tiene una arquitectura basada en java que soporta el almacenamiento y procesamiento masivo de datos.
Para que veamos la magnitud y el potencial de esta herramienta, Hadoop se espera que tenga un crecimiento en el mercado desde los 6,7 billones de dolares del 2016 a los 40,7 en 2021, con un crecimiento medio de 43,4%.
Una vez analizado el mercado en el que nos estamos moviendo vamos a presentar las dos distribuciones más utilizadas. En la actualidad existen varias opciones para explotar todo el potencial que nos proporciona Hadoop, nosotros nos vamos a centrar en Hortonworks y Cloudera.
Primeramente vamos a hacer una breve presentación de las dos distribuciones.
Las principales diferencias entre las distribuciones son las siguientes:
Cloudera ha anunciado que su objetivo a largo plazo es convertirse en una empresa data hub disminuyendo la necesidad de tener un almacén de datos. Hortonworks sin embargo, sigue siendo un proveedor de Hadoop distro, y se ha asociado con la empresa de almacenamiento de datos Teradata.
Mientras Cloudera puede ejecutarse en un servidor Windows, Hortonworks es disponible en el servidor Windows de forma nativa. Un cluster basado Windows-Hadoop puede ser desplegado en Windows Azure.
Cloudera tiene software de gestión propietario llamado Cloudera Manager, un motor de consultas SQL llamado Impala, también Cloudera Search para búsquedas fáciles y acceso a los productos en tiempo real. Hortonworks no tiene software propietario, usa Ambari para la gestión, Stinger para manejar consultas y Apache Solr para búsquedas de datos.
Cloudera tiene una licencia comercial, mientras que Hortonworks tiene una licencia de código abierto. Cloudera también permite el uso de sus proyectos open-source gratuitamente, pero el paquete no incluye la suite de gestión Cloudera Manager o cualquier otro software propietario.
Cloudera tiene un trial gratuito de 60 días, Hortonworks es completamente gratis.
A la hora de configurarlos inicialmente aparte de descargar la maquina virtual que trabajará con el software de virtualización favorito que se tenga, Cloudera ofrece una imagen Docker y Hortonworks te da la oportunidad de ejecutarlo desde la nube. Hortonworks en la nube es bastante fácil de configurar. Tan solo tienes que registrarte en Microsoft, puesto que la plataforma corre en Azure, y elegir una configuración de las predefinidas.
Como herramientas de administración, Horton utiliza Ambari y Cloudera usa Cloudera Manager. A la hora de escalarlo Cloudera Manager cuenta con una serie de características (previo pago) como son: gestión multi-clusterm, Actualizaciones continuas, integraciones extensibles con servicios de partner, backup y restauración ante desastres.
A continuación vamos a compararlos desde una visión más empresarial valorando su crecimiento y costes productivos.
Las dos están creciendo a ritmos similares con una ligera ventaja para Cloudera.
El coste generado por la actividad de cada empresa es muy diferente cayendo la balanza del lado de Hortonworks, puesto que es un 60% más barato mantenerla influyendo directamente en el precio.
Desde Zylk nos hemos decantado por Hortonworks puesto que encaja perfectamente con nuestra filosofía open-source además consideramos que debido a su cultura completamente open y soportada por la comunidad, en el medio-largo plazo nos va a proporcionar una herramienta mucho más potente y versátil.