Título del proyecto

<aside>

End-to-End Superstore Lakehouse en Azure

</aside>

image.png

Descripción del proyecto

<aside>

Este proyecto implementa una arquitectura moderna de Data Engineering basada en Lakehouse, utilizando servicios de Azure para construir un pipeline completo desde la ingesta de datos hasta la visualización.

La solución sigue el patrón Medallion Architecture (Bronze, Silver, Gold) y utiliza Delta Lake, Unity Catalog y Synapse Serverless para habilitar analítica escalable y consumo desde Power BI.

El flujo de datos incluye:

Esta arquitectura permite separar claramente las capas de procesamiento, mejorar la calidad de los datos y habilitar analítica empresarial escalable.

</aside>

Descripción de cada capa

<aside>

Data Ingestion

Los datos se extraen desde SQL Server (base Northwind/Superstore) utilizando Azure Data Factory pipelines.

ADF copia los datos hacia Azure Data Lake Storage Gen2, almacenándolos en la capa Bronze en formato Delta Lake.

Objetivo de esta capa:


Bronze Layer – Raw Data

La capa Bronze almacena los datos crudos tal como fueron ingeridos desde el sistema fuente.

Características:

Ejemplo de datos:

bronze/orders
bronze/customers
bronze/products

Silver Layer – Data Cleaning

La capa Silver se encarga de limpiar, estandarizar y validar los datos utilizando Azure Databricks (PySpark).

En esta etapa se aplican:

También se agregan columnas técnicas como:

_silver_ts

Esto permite mantener trazabilidad del procesamiento.


Gold Layer – Business Data

La capa Gold contiene datasets optimizados para análisis de negocio.

Aquí se generan tablas agregadas como:

sales_by_region_month
sales_by_category
customer_sales_summary

Estas tablas son diseñadas específicamente para:

Delta Lake Features utilizadas

<aside>

El proyecto utiliza funcionalidades avanzadas de Delta Lake como:

Esto mejora:

Unity Catalog (Gobernanza)

<aside>

Se utiliza Unity Catalog para administrar:

Esto permite un modelo centralizado de gobernanza y seguridad de datos.

</aside>

Seguridad

<aside>

El proyecto implementa seguridad mediante:

Esto elimina la necesidad de almacenar credenciales directamente en el código.

</aside>

CI/CD

<aside>

</aside>

Creación Grupos de Recursos

<aside>

</aside>