SPARK, EL PLAYER DE MODA EN BIG DATA

SPARK, EL PLAYER DE MODA EN BIG DATA

Haciendo frente al Big Data tradicional

Spark, un sistema de procesamiento Big Data en tiempo real que te convencerá

Spark es una de las tecnologías más de moda en el mundo del Big Data, es la implementación más optimizada para el proceso en tiempo real (streaming), frente al Big Data tradicional pensado para procesamiento batch.

¿En qué escenarios puede ser necesario el procesamiento Big Data en tiempo real? Los ejemplos más recurrentes son:

  • Monitorización de procesos TI, en especial de servidores web
  • Detección de fraude, de la manera más prematura posible para poder minimizar el impacto en el negocio
  • Trading, anuncios, subastas

El sistema de procesamiento en tiempo real más tradicional y popular en Big Data se llama Storm, pero tiene algunos problemas que precisamente Spark soluciona, optimizando el procesamiento de los nodos, evitando lecturas innecesarias y pérdidas de información ante fallos (resilencia).

El procesamiento #BigData en tiempo real más optimizado se llama @ApacheSpark Clic para tuitear

El procesamiento en Spark se trocea en pequeños batches que son tratados de forma individual como RDD (Resilient Distributed Dataset, la forma de procesamiento en memoria distribuida y tolerante ante fallos de Spark) y devueltos en forma de batch.

Las interfaces de entrada de Spark pueden ser Kafka, HDFS, Flume o sistemas a medida que incluso ya generen RDDs.

Otra de las utilidades de Spark es para el aprendizaje automático (Machine Learning). Librerías como MLlib proporcionan unos algoritmos de aprendizaje comunes y utilidades que incluyen clasificación, regresión, agrupación (clustering), filtros colaborativos y reducción de dimensiones.

Por último, no siempre es la mejor solución o la más rápida la implementación de Spark en Big Data. En la resolución de algunos problemas puede ser mejor utilizar directamente algoritmos de MapReduce (tratamiento a más bajo nivel) para ficheros o Impala como entorno SQL más potente y directo que Hive (que es una capa de abstracción SQL que traduce a MapReduce). Sin embargo, para entornos más heterogéneos o cambiantes, Spark ofrece un mejor rendimiento.

 

Juan Manuel Soto

Digital Solutions Marketing Manager

Leave A Reply