End-to-End Superstore Lakehouse en Azure - Unit Catalog

Título del proyecto

<aside>

End-to-End Superstore Lakehouse en Azure

</aside>

Descripción del proyecto

<aside>

Este proyecto implementa una arquitectura moderna de Data Engineering basada en Lakehouse, utilizando servicios de Azure para construir un pipeline completo desde la ingesta de datos hasta la visualización.

La solución sigue el patrón Medallion Architecture (Bronze, Silver, Gold) y utiliza Delta Lake, Unity Catalog y Synapse Serverless para habilitar analítica escalable y consumo desde Power BI.

El flujo de datos incluye:

Azure Data Factory para la ingesta de datos desde SQL Server hacia Data Lake.
Azure Data Lake Storage Gen2 como almacenamiento central del Lakehouse.
Azure Databricks con Delta Lake para procesamiento, limpieza y transformación de datos.
Unity Catalog para gobernanza, seguridad y gestión de metadatos.
Azure Synapse Serverless para consultas analíticas sobre tablas Delta.
Power BI para la creación de dashboards y consumo de datos.

Esta arquitectura permite separar claramente las capas de procesamiento, mejorar la calidad de los datos y habilitar analítica empresarial escalable.

</aside>

Descripción de cada capa

<aside>

Data Ingestion

Los datos se extraen desde SQL Server (base Northwind/Superstore) utilizando Azure Data Factory pipelines.

ADF copia los datos hacia Azure Data Lake Storage Gen2, almacenándolos en la capa Bronze en formato Delta Lake.

Objetivo de esta capa:

Ingesta inicial de datos
Mantener datos en su forma más cercana al origen
Facilitar auditoría y trazabilidad

Bronze Layer – Raw Data

La capa Bronze almacena los datos crudos tal como fueron ingeridos desde el sistema fuente.

Características:

Datos sin transformar
Almacenados en Delta format
Particiones organizadas por dataset
Usada como fuente para procesamiento posterior

Ejemplo de datos:

bronze/orders
bronze/customers
bronze/products

Silver Layer – Data Cleaning

La capa Silver se encarga de limpiar, estandarizar y validar los datos utilizando Azure Databricks (PySpark).

En esta etapa se aplican:

limpieza de columnas
estandarización de tipos de datos
eliminación de duplicados
validaciones de calidad de datos
normalización de fechas y números

También se agregan columnas técnicas como:

_silver_ts

Esto permite mantener trazabilidad del procesamiento.

Gold Layer – Business Data

La capa Gold contiene datasets optimizados para análisis de negocio.

Aquí se generan tablas agregadas como:

sales_by_region_month
sales_by_category
customer_sales_summary

Estas tablas son diseñadas específicamente para:

reporting
dashboards
análisis empresarial </aside>

Delta Lake Features utilizadas

<aside>

El proyecto utiliza funcionalidades avanzadas de Delta Lake como:

ACID Transactions
Time Travel
Schema Evolution
OPTIMIZE
ZORDER
VACUUM
Shallow Clone
Deep Clone
Data Skipping

Esto mejora:

rendimiento
consistencia
gobernanza de datos </aside>

Unity Catalog (Gobernanza)

<aside>

Se utiliza Unity Catalog para administrar:

metadatos
permisos
external locations
credenciales
tablas Delta

Esto permite un modelo centralizado de gobernanza y seguridad de datos.

</aside>

Seguridad

<aside>

El proyecto implementa seguridad mediante:

Azure Key Vault para gestión de secretos
Managed Identity para acceso seguro al Data Lake
Unity Catalog para control de permisos

Esto elimina la necesidad de almacenar credenciales directamente en el código.

</aside>

CI/CD

<aside>

</aside>

Creación Grupos de Recursos

<aside>

</aside>