<aside>
End-to-End Superstore Lakehouse en Azure
</aside>

<aside>
Este proyecto implementa una arquitectura moderna de Data Engineering basada en Lakehouse, utilizando servicios de Azure para construir un pipeline completo desde la ingesta de datos hasta la visualización.
La solución sigue el patrón Medallion Architecture (Bronze, Silver, Gold) y utiliza Delta Lake, Unity Catalog y Synapse Serverless para habilitar analítica escalable y consumo desde Power BI.
El flujo de datos incluye:
Esta arquitectura permite separar claramente las capas de procesamiento, mejorar la calidad de los datos y habilitar analítica empresarial escalable.
</aside>
<aside>
Los datos se extraen desde SQL Server (base Northwind/Superstore) utilizando Azure Data Factory pipelines.
ADF copia los datos hacia Azure Data Lake Storage Gen2, almacenándolos en la capa Bronze en formato Delta Lake.
Objetivo de esta capa:
La capa Bronze almacena los datos crudos tal como fueron ingeridos desde el sistema fuente.
Características:
Ejemplo de datos:
bronze/orders
bronze/customers
bronze/products
La capa Silver se encarga de limpiar, estandarizar y validar los datos utilizando Azure Databricks (PySpark).
En esta etapa se aplican:
También se agregan columnas técnicas como:
_silver_ts
Esto permite mantener trazabilidad del procesamiento.
La capa Gold contiene datasets optimizados para análisis de negocio.
Aquí se generan tablas agregadas como:
sales_by_region_month
sales_by_category
customer_sales_summary
Estas tablas son diseñadas específicamente para:
<aside>
El proyecto utiliza funcionalidades avanzadas de Delta Lake como:
Esto mejora:
<aside>
Se utiliza Unity Catalog para administrar:
Esto permite un modelo centralizado de gobernanza y seguridad de datos.
</aside>
<aside>
El proyecto implementa seguridad mediante:
Esto elimina la necesidad de almacenar credenciales directamente en el código.
</aside>
<aside>
</aside>
<aside>
</aside>