Principales diferencias entre Data Lakes y Data Warehouse

Principales diferencias entre Data Lakes y Data Warehouse

Actualmente trabajar con cantidades enormes de datos empieza a ser la norma más que la excepción y, es cada vez más necesario buscar una solución más eficiente para almacenar y procesar grandes volúmenes de información.

El enfoque tradicional del DataWarehouse/Business Intelligence ha hecho un gran trabajo para simplificar el acceso a los datos y la presentación de informes, permitiendo combinar datos de muchas fuentes, con el fin de responder a las preguntas que una organización puede tener.

Los datos son la clave para entender los patrones de tus clientes, competidores y mercados. Sólo mediante el análisis de esta información se pueden tomar decisiones y llevar a cabo las acciones adecuadas.

Por ello, el reto para muchas de las compañías actuales es Integrar, Gestionar y Distribuir sus datos a aquellos que los necesitan en el menor tiempo posible, apareciendo en los últimos años el concepto de Data Lake.

Los profesionales en este ámbito seguro que conocen este término y, cuando se empieza a hablar de soluciones de Big Data con los clientes, la conversación, habitualmente, se convierte en una discusión sobre Data Lakes. Sin embargo, a menudo encuentro que los clientes o no han escuchado el término o realmente no entienden bien lo que significa. De hecho, creo que hay cierta confusión en ocasiones entre Data Warehouse y Data Lake, por eso en este post quería enumerar brevemente las principales diferencias.

Pero inicialmente creo interesante definir estos términos, para verlas más fácilmente.

Data Warehouse es el repositorio central de los datos de una empresa provenientes de diferentes fuentes. Se guardan los datos actuales y su histórico, y se utilizan para la creación de informes y análisis de tendencias. Algunas de sus características son:

  • Representa una foto abstracta de la organización del negocio por diferentes áreas.
  • Sus datos están muy estructurados y organizados.
  • No tiene datos cuyo uso no haya sido definido previamente.

Data Lake es un término cuya primera definición o uso se atribuye a James Dixon que decía, “if you think of a datamart as akin to a bottle of water…”cleansed, packaged and structured for easy consumption” the data lake is more like a body of water in its natural state. Data flows from the streams (the source systems) to the lake. Users have access to the lake to examine, take samples or dive in.

Sus principales funciones son  la gestión de la ingesta de datos, su almacenamiento y procesado posterior y, por último, el acceso a los mismos.

Algunas de sus características son:

  • Contiene todos los datos de las fuentes originales, sin rechazar ningún tipo de dato.
  • Los datos se almacenan sin transformar o apenas transformados.
  • Los datos se transforman y se aplica un esquema sólo para satisfacer las necesidades de análisis.

 

Es importante saber que al igual que cuando hablamos de Data Warehouse, por detrás hay una solución que soporta el modelo (Teradata, Oracle Exadata, SAP Hana, Microsoft SQL Server…) y muy habitualmente detrás de un Data Lake lo que está es la infraestructura del sistema de archivos HDFS (Hadoop Distributed File System) que utiliza Hadoop, y cuando hablamos de Hadoop en entornos corporativos generalmente hablamos de alguna de sus soluciones comerciales tales como Cloudera, Hortonworks, MapR, IBM o Pivotal, las 5 opciones más destacadas actualmente.

Tras las definiciones anteriores creo que es fácil resaltar alguna de las principales diferencias entre ambos conceptos

En definitiva es importante saber que aun siendo ambos conceptos, Data Warehouse y Data Lake, repositorios de información, un Data Lake no es una nueva versión 2.0 de un Data Warehouse ni su remplazo.

De hecho, se pueden complementar muy bien, diseñando una arquitectura de datos moderna, que permita seguir a las organizaciones aprovechando sus inversiones en su Data Warehouse, mientras que empiezan a recoger en su Data Lake, todos los datos que han sido ignorados o desechados anteriormente.

 

Inycom

2 Comments

Leave A Reply