SPARK SQL, el ETL de moda

SPARK SQL, el ETL de moda

Funcionalidades de SPARK SQL que están realmente despuntando

Hace un tiempo hablamos de la irrupción con fuerza de SPARK como una de las tecnologías y procedimientos de moda a la hora de procesar el Big Data.

Pero en realidad, si bajamos un poco más dentro del conjunto de bibliotecas (libraries en inglés) que incluye, nos encontramos con funcionalidades que están despuntando especialmente por sus grandes características.

Ya hablamos un poco del procesamiento en tiempo real (Streaming) y del Machine Learning (MLib), pero también se dispone de GraphX para tratamiento de bases de datos de Grafos y sobre todo Spark SQL, que combina la potencia y simplicidad del lenguaje SQL al tratamiento de grandes volúmenes de datos en DataFrames de orígenes heterogéneos (estructurados o no) o utilizando el formato nativo de Spark RDD (Resilient Distributed Dataset).

 

Esta capa tiene muchas ventajas como la abstracción del origen de datos, el lenguaje común para el tratamiento y transformación, la alta escalabilidad y estar basada en código open source.

Esta heterogeneidad permite el tratamiento y generación de ficheros en formatos columnares optimizados como Parquet, o la utilización de distintos lenguajes para su implementación final como Python, Java, Scala y R, además del propio SQL.

Juan Manuel Soto

Digital Solutions Marketing Manager

Leave A Reply