Arquitectura de Datos Empresarial: Incorporando tecnologías Big Data en tu estrategia de datos

Arquitectura de Datos Empresarial: Incorporando tecnologías Big Data en tu estrategia de datos

Estrategia Big Data. Una Arquitectura de Datos Empresarial.

Actualmente las tecnologías de Big Data se utilizan para disponer de una Analítica de Datos moderna pero no necesariamente tienen que sustituir los sistemas tradicionales de análisis. Entonces, ¿cómo diseñar una arquitectura de datos empresarial que incorpore eficazmente las tecnologías de Big Data?

La definición de una arquitectura moderna de datos nos permitirá disponer de los beneficios de un DataLake, combinado con la velocidad de consultas y análisis proporcionados por  un DataWarehouse tradicional, y todo ello con facilidad para el consumo de datos a todos los niveles de la empresa.

En la siguiente imagen se pueden observar todas las capas de esta Arquitectura de Datos, que nos va a permitir incorporar las tecnologías de Big Data y mantener y seguir enriqueciendo nuestro DataWarehouse (EDW).

Las capas de una arquitectura de datos alineada a una estrategia Big Data

Las capas de una arquitectura de datos alineada a una estrategia Big Data – Vía Blue Granite.

 

Todos los datos, se recogen en la capa de Persistencia del DataLake

Utilizando las diferentes herramientas existentes (Apache Flume, Apache Sqoop,…), se recogen periódicamente en esta capa todos los datos de origen interno y externo –datos estructurados, semiestructurados y no estructurados.

No todos los datos recogidos en la capa de Persistencia se subirán a otras capas de la Arquitectura, pero se mantienen en esta capa para su análisis en casos de uso futuros.

Analistas y Científicos de datos colaboran en dar forma y clasificar los datos para su uso en el negocio

Los Científicos de Datos y Analistas tienen acceso a los datos en la capa de Persistencia para realizar tareas de descubrimiento y experimentación en su propio Analytics Sandbox. Cuando estos analistas identifican nuevas fuentes de datos que pueden proporcionar nuevas ideas de negocio, son también los encargados de dar forma y clasificar (Curate) estos datos para que puedan ser usados desde la capas superiores de la arquitectura, en modo autoservicio por más usuarios del negocio.

Puesto que estos datos generalmente se consumen a través de los niveles más altos de la organización y son necesarios para la toma de decisiones diaria, será recomendable su traspaso al DataWarehouse de la empresa (EDW), desde donde se explotarán por los usuarios de negocio mediante las tecnologías de BI más tradicionales y mucho más rápidas.

Progresión, Transformación e Integración de los datos en las diferentes capas de la Arquitectura

Los datos se mueven a través de la arquitectura por medio de un completo Framework de Integración. Los datos se consumen desde los sistemas de origen, se organizan en las capas de datos, se transforman, se mejoran y finalmente se cargan en el EDW para los usuarios de negocio.

Todas estas transformaciones e integraciones se realizan en el Data Lake, pero independientemente de la metodología, es importante elegir herramientas que puedan automatizar y auditar todos estos procesos. Es muy importante mantener el control y registros de los contenidos almacenados en las diferentes capas del DataLake.

Tener bien definido un mecanismo de metadatos y gestión de contenidos para apoyar el descubrimiento, normalización, gestión de datos maestros y la seguridad, es un factor clave en el éxito de la implementación de una estrategia de Big Data.

Inycom tiene una amplia experiencia en el diseño, evolución y mantenimiento de sistemas de Data Warehouse en múltiples clientes, y sabemos el esfuerzo y tiempo dedicado en ellos, y por eso proponemos abordar los proyectos de Big Data en nuestros clientes reutilizando todo el trabajo hecho, y definiendo una arquitectura de datos empresarial que permita al cliente seguir creciendo y aprovechando al máximo sus datos.

 

Juan Manuel Soto

Digital Solutions Marketing Manager

Leave A Reply