Blogs

Entries with zylk-blog hadoop ecosystem .

Actualidad

Cómo configurar Nutch 1.13 para que use SolrCloud 6.6.0

avatar
Gustavo Fernández Jul 02, 2017
Zylk

He estado haciendo este fin de semana unas pruebas de concepto para poder usar solrCloud, en su última versión , conjuntamente con el crawler nutch , también en su última versión. He encontrado muchos documentos explicando cómo configurar el sistema con solr normal pero no para usarlos con solrCloud. Voy a describir, someramente, un conjuntode tips que he aprendido este fin de semana mientras he realizado la prueba de concepto. Lo primero que hay que tener instalado y configurado es Nutch......

Read More

La primera edición de BIND 4.0 concluye con un Demo Day

avatar
Pilar Peña May 03, 2017
Zylk

La primera edición de BIND 4.0 concluye el próximo 5 de mayo con un demo day en el que tanto empresas industriales como inversores y medios de comunicación podrán contactar con las 11 startups participantes. Durante esta jornada las startups participantes presentarán sus proyectos junto con las empresas industriales a las que han aportado talento y soluciones innovadoras para mejorar su actividad. En nuestro caso desde  Zylk Industry Advanced Analytics os contaremos la  propuesta de BigData......

Read More

KMeans con Zeppelin y Spark

avatar
Gustavo Fernández Apr 22, 2017
Zylk

Siguiendo estos dos artículos de internet, uno donde se explica como crear un modelo aplicando el algoritomo no supervisado de clusterización (KMeans) y el otro , donde se explica usar Apache Spark desde el notebook zeppelin, he creado un ejemplo que mezcla ambos. Para poder ejecutarlo en el laboratorio de de bigdata que tenemos montado . Lo que se ha hecho ha sido lo siguiente Cargar los datos de los bancos Seleccionar dos de sus características (edad, balance) y usarlas como features para......

Read More

HBase format

avatar
Gustavo Fernández Feb 03, 2017
Zylk

La notación de la shell de hbase es bastante poco amigable , por un lado porque la forma de escribir las sentencias es poco intuitiva, al principio, y por otro lado porque los valores son simpre arrays de bytes . Por tanto la salida de un comando suele leerse mal, sobre todo si lo que se ha almacenado no son los bytes de un string 100316046_2017_2_1 column=23:1485991943_latitud, timestamp=1486109715526, value=@Ea\x04;nS\x85 100316046_2017_2_1 column=23:1485991943_longitud,......

Read More

Interprete de zeppelin para hbase

avatar
Gustavo Fernández Feb 02, 2017
Zylk

Dentro de un proyecto de bigdata que estamos haciendo hemos usado como notebook del proyecto, zeppelin de apache . El ecosistema completo incluye ambari 2.2 y el HDP-2.4 . La cuestión es que justo este intérprete parece que tiene un bug para esta versión y que no funciona correctamente. Para hacelo funcionar hemos tenido que modificar dos cosas Cambiar las librerías de hbase que incluye el interprete por las de la versión de HDP-2.4 Añadir la siguiente variable de entorno al scritp de......

Read More

Examples of shell scripts using Ambari REST API uploaded to github

avatar
Cesar Capillas Jan 19, 2017

Hi, I uploaded the curl command based shell scripts using the Ambari REST API in the last posts into a small project in github. Here the code and examples: https://github.com/zylklab/ambari-shell-tools  ...

Read More

Starting services via Ambari REST API

avatar
Cesar Capillas Jan 16, 2017

Keeping on curl based commands from Ambari REST API, it is also possible start and stop services of your Big Data cluster, and not only to collect metrics from Ambari. For example,   ambari-service.sh [start|stop|check]  a given service: cesar@lemmy ~/local/ambari $ ./ambari-service.sh Usage: ambari-service.sh [ZOOKEEPER|HDFS|YARN|MAPREDUCE2|HBASE|HIVE|SPARK|KAFKA|FLINK|ZK-NIFI|ZEPPELIN] [start|stop|check] Available services: "AMBARI_METRICS" "FLINK" "HBASE" "HDFS" "HIVE" "KAFKA" "MAPREDUCE2"......

Read More

Monitoring Ambari with Nagios

avatar
Cesar Capillas Jan 12, 2017

Last day, we tried some curl commands to check Ambari metrics of our Big Data cluster. The next step for using these metrics collected in Ambari Server is to include them in a Nagios / Icinga server for getting email alerts and the usual monitoring stuff. A simple example may be something like to obtain Ambari alerts summary (Note: this can be improved a lot, it is just a probe of concept). check_ambari_alerts_summary.sh #!/bin/bash SERVER=$1 PORT=$2 USERNAME=$3 PASSWORD=$4 CLUSTERNAME=$5......

Read More

Getting Ambari metrics via curl and Ambari REST API

avatar
Cesar Capillas Jan 10, 2017

During last days, I started to play with an Ambari cluster, based on the Hortonworks distribution.  Ambari provides an agile interface for starting/stopping services in the cluster, modify configurations, and monitoring the different hosts and services of the cluster, providing alerts and metrics. Besides, Ambari provides a REST API for consuming the collected metrics and managing the cluster. This REST API is used in very interesting projects for monitoring a Big Data cluster (from the......

Read More

Flink procesado de streams ii

avatar
Gustavo Fernández Jan 07, 2017
Zylk

Siguiendo con el uso de ventanas en flink ,  vamos a modelar la generación de eventos para poder detectar que un stream concreto se está desviando de su funcionamiento normal. Por ejemplo vamos suponer que tenemos un stream que emite un evento cada vez que una persona añade un artículo a un carrito de la compra en una página web, y queremos detectar posibles problemas en el proceso. Para ello podemos hacer lo siguiente: Consumir dicho stream desde flink Crear una ventana que nos sume el......

Read More

Flink procesado de streams i

avatar
Gustavo Fernández Dec 05, 2016
Zylk

En un proyecto, en el que estamos involucrados y en el que estamos usando flink para el procesado de streams, hemos tenido que investigar como desarrollar una ventana de procesado personalizada. En este caso una ventana muy sencilla que consiste en disparar los eventos bajo dos circuntancias Cuando han entrado un número de eventos concreto Cuando ha pasado un tiempo determinado En realidad es simplemente una ventan que conjuga las dos ventanas típicas que flink ofrece por defecto. Para hacer......

Read More

Zylk participará en LibreCon 2016

avatar
Pilar Peña Nov 02, 2016
Zylk

La cita, que prevé reunir a más de 1.500 expertos y responsables de compañías, estará orientada a los nuevos retos de la Industria 4.0 y del sector Financiero. La VI edición del Congreso Nacional pretende dar respuesta a través del software libre y las tecnologías abiertas a los nuevos retos de la Industria 4.0, previstos para el primer día, así como de la banca online (Open Finances), contenidos programados para la segunda jornada. LibreCon 2016, organizada por la Federación Nacional de......

Read More

ZYLK Industry Advanced Analytics participa en el reto Velatia - Ormazabal

avatar
David Olmos Oct 04, 2016
Zylk

El viernes 30 de septiembre ZYLK Advanced Analytics se presentó al reto Velatia (Grupo Ormazabal) enmarcado dentro del programa de Innovación Abierta de Bizkaia Open Future , impulsado por la diputación de Bizkaia y Telefónica.   Zylk propone soluciones para la monitorización remota de máquinas aisladas así como elementos de seguridad IT para las mismas. Así mismo dispone de una herramienta de monitorización predictiva en tiempo real para los centros de datos de su organización. ZYLK Advanced......

Read More

ZYLK Industry Advanced Analytics wants to accelerate its growth via BIND 4.0

avatar
David Olmos Sep 17, 2016
Zylk

Bind 4.0 is a public-private acceleration program that lasts 24 weeks and takes place in the Basque Country. It focuses on Industry 4.0 early-stage startups involved in big data, additive manufacturing, artificial vision, cloud computing, augmented reality, cybersecurity, cyberphysical systems and/or collaborative robotics. They offer “A contract with one of our top industry firm partners for the development of an Industry 4.0 project.” and that is what we wanted the most. We already work for......

Read More

Zylk Industry is here Big Data and IoT together

avatar
David Olmos Sep 02, 2016
Zylk

  Zylk Industry is here. Big Data and IoT together for our customers .   your industry is full of data , are you aware of that?   ZYLK Industry is a project that was born 2 years ago from the Big Data Team experience in Energy, Automotive, and Telecomunications industries. Our team is formed by professionals with extensive experience in Big Data, IoT, telecommunications, front-end interfaces and data analytics. ZYLK Industry has given a step foward and has developed a non-intrusive 360º data......

Read More

Visión general de una arquitectura de microservicios basada en yarn

avatar
Gustavo Fernández Jan 11, 2016
Zylk

Siguiendo con la evolución de las arquitecturas orientadas a servicios ... ahí va un gráfico que completa la visión general explicada en anteriores post Los servicios son servicios modelados con avro /RP y pueden operar en tres modalidades POJOs Como servicio RPC en local Como servicio RPC en un cluster de yarn (escalado, tolerancia a fallos etc..)...

Read More

Avro RCP yarn and slider

avatar
Gustavo Fernández Nov 29, 2015

Siguiendo con los artículos relacionados con YARN, SLIDER y arquitecturas relacionadas con BigData mostramos a continuación una posible arquitectura basda en los siguientes tres elementos YARN SLIDER AVRO RPC Donde lo importante es que con este tipo de arquitectura podríamos disponer de servicios con las caraterísticas indicadas Resilence ( http://hortonworks.com/blog/rm-yarn-resilience/ ) Elastic ( https://slider.incubator.apache.org/ ) Horizontal Scaling (......

Read More

Usando yarn y slider para levantar procesos en un cluster de hortonworks

avatar
Gustavo Fernández Nov 22, 2015

Siguiendo con las pruebas y las arquitecturas relacionados con bigdata vamos a inspeccionar las capacidades de yarn para levantar procesos en un cluster HDP . Lo primero que habría que introducir es el producto yarn. De la página siguiente de hortonworks podemos obtener la siguiente definición YARN is the prerequisite for Enterprise Hadoop, providing resource management and a central platform to deliver consistent operations, security, and data governance tools across Hadoop clusters. YARN......

Read More

Monitorizando el cluster de hadoop y kafka con Ganglia

avatar
Gustavo Fernández Jan 05, 2015

Siguiendo con los artículos anteriores relacionados con los nuevos paradigmas del desarrollo , hemos montado en el laboratorio donde hacemos las pruebas, en zylk.net, un sistema de monitorización para tener métricas de los siguientes productos Sistema operativo HDFS MAP&REDUCE (yarn) Hbase Kafka Todos estos productos ya los hemos ido describiendo en anteriores entradas del blog y ahora lo que hemos hecho es agrupar todas las metrircas que los mismos producen y almacenarlas usando el siguiente......

Read More

Seguimos jugando con phoenix

avatar
Gustavo Fernández Nov 17, 2014

Siguiendo con el anterior post relacionado con Phoenix , he estado probando más características que hay que evaluar para ver hasta donde nos puede llevar Phoenix + Hbase + Pentaho + Saiku . 1) Herramientas de bulk 2) Rendimeinto de las queries 3) Creación de índices secundarios 4) Análisis de los planes de ejecución de las queries En la imagen podemos ver los resultados de los juegos ... la verdad es que apunta maneras. La siguiente prueba consistirá en recoger los datos de un proyecto típico......

Read More
— 20 Items per Page
Showing 1 - 20 of 27 results.