SOLUCIONES BIG DATA ¿SON SIEMPRE ADECUADAS?

SOLUCIONES BIG DATA ¿SON SIEMPRE ADECUADAS?

Escenarios con potencial para el Big Data

Big data en gestión de logs y gestión masiva de eventos

Existen variados escenarios en los que el Big Data se puede aplicar, aunque es verdad que muchos de ellos no encuentran el beneficio específico de estas potentes herramientas y su implementación puede ofrecer resultados equiparables a soluciones de arquitecturas tradicionales.

En presente panorama se plantean dos escenarios de uso generales con bastante potencial:

  1. La gestión de logs para prevención de incidencias, detección temprana, etc.
  2. La gestión masiva de eventos de todo tipo. Desde la captura de datos vinculados al internet de las cosas (IoT) hasta las transacciones económicas, pasando por cualquier tipo de interacción de los usuarios con la web, no solo las que acaban en compra.

La infraestructura Big Data, que permite el tratamiento de estos casos de uso, es un poco distinta aunque son capas totalmente compatibles para una solución completa.

Para el caso concreto de la gestión de logs se puede pensar en enviar o “escuchar” estos ficheros en los que la estructura está bastante definida en los procesos principales de sistema (servidor web, base de datos, sistema operativo) pero no tanto en aplicaciones particulares, sobre todo en aplicaciones a medida si no han tenido requisitos específicos al respecto.

La pieza fundamental en este tipo de soluciones sobre la infraestructura Hadoop es Apache Flume, como un recolector distribuido de estos logs que vuelca la información a un sistema de clúster de ficheros HDFS desde el que se realizan consultas con herramientas directas de MapReduce o más simplificadas a través de Hive (similar a SQL) o Pig (scripting).

La clave en la gestión de logs es @twitterhadoop #Apache #Flume con #Pig o #Hive Clic para tuitear

Todos estos servicios ya son suficientes para realizar consultas e informes sobre el sistema, en función de las aplicaciones desde las que se vuelque la información (datos de entrada), y son más que suficientes para la mayor parte de aplicaciones.

Uno de los principales resultados que se espera obtener es la prevención de incidencias a través de la detección de patrones de comportamiento.  Este tipo de actividades puede partir de una primera fase de “escucha” de los datos que se obtienen y un postmorten de las incidencias que se producen para correlacionar con los logs.  Este tipo de análisis puede ser costoso pero se puede beneficiar igualmente de herramientas de aprendizaje automático.

Parte del negocio de las herramientas de gestión de logs comerciales está precisamente en aportar el valor en el conocimiento de los patrones que pueden provocar incidencias, y en los umbrales necesarios para evitarlas a tiempo.  En todo caso esto sirve para las aplicaciones más comunes pero no tanto para aplicaciones a medida o con fuerte personalización.

Vea el vídeo 'Cómo acercar el Big Data a las empresas'    Más sobre Big Data en Inycom TV

  CÓMO ACERCAR EL BIG DATA A LAS EMPRESAS

 

Igualmente, como todo sistema de monitorización, las alarmas deben ser las justas para los momentos necesarios.  Tanto no tener apenas alertas como tener demasiadas termina ocasionando que sistemáticamente no se gestionen adecuadamente y puedan pasar desapercibidas las más importantes.

Por otro lado, para el segundo escenario de uso de Big Data para eventos masivos se han creado infraestructuras específicas sobre Hadoop como Apache Storm que son capaces de gestionar eficientemente los eventos para hacer el tratamiento posterior.

La gestión eficiente de eventos pasa por infraestructuras sobre @twitterhadoop como #Apache # Storm Clic para tuitear

Todas estas capas de Hadoop tradicionales realizan un análisis tipo Batch que es más que suficiente para realizar la captura, tratamiento y gestión de resultados, pero ha evolucionado a un modelo de uso on-line de procesamiento en memoria y resultados en general más rápidos a través de una de las estrellas del stack de Big Data actual, Apache Spark, del que hablaremos en próximos artículos y a la que se está dotando de las capacidades de “machine learning” que hasta ahora estaban en otras herramientas como Apache Mahout.

 

 

¡Tu opinión es vital!
    Puntuación total

    Mejorando juntos

    Juan Manuel Soto

    Digital Solutions Marketing Manager

    Leave A Reply