Título del proyecto
<aside>
Arquitectura End-to-End Lakehouse con Azure (Northwind) – Medallion + CI/CD
</aside>

Descripción del proyecto
<aside>
Proyecto integral de Ingeniería de Datos desarrollado en Azure, implementando una arquitectura Lakehouse basada en el patrón Medallion (Bronze, Silver y Gold).
Se realizó la ingestión de datos desde SQL Server on-premise mediante Azure Data Factory, transformación y limpieza en Databricks utilizando Delta Lake y Unity Catalog, exposición de datos analíticos en Synapse Analytics mediante vistas externas, y consumo final en Power BI.
El proyecto incorpora separación de ambientes DEV y PROD, automatización CI/CD con GitHub Actions y autenticación federada (OIDC), aplicando buenas prácticas empresariales de seguridad, gobernanza y despliegue continuo.
</aside>
Objetivo general del proyecto
<aside>
Diseñar e implementar una arquitectura moderna de datos en Azure que permita ingerir, transformar, gobernar y visualizar información empresarial aplicando buenas prácticas de Data Engineering y CI/CD empresarial.
</aside>
Objetivos específicos del proyecto
<aside>
- Conectar Power BI a Synapse para generación de reportes analíticos.
- Automatizar despliegues mediante GitHub Actions y autenticación OIDC (sin secretos).
- Exponer datos procesados mediante vistas externas en Synapse Analytics.
- Implementar Unity Catalog con control de acceso basado en RBAC y Managed Identity.
- Aplicar limpieza, transformación y estandarización de datos en Databricks (Delta Lake).
- Construir arquitectura Medallion (Bronze, Silver, Gold) en ADLS Gen2.
- Configurar Azure Data Factory para ingestión dinámica de tablas desde SQL Server on-premise.
- Implementar separación de ambientes DEV y PROD con recursos independientes.
</aside>
Componentes del análisis
<aside>
El análisis del proyecto se divide en las siguientes capas:
🔹 1. Ingesta de datos
- Origen: SQL Server Northwind (on-premise)
- Orquestación: Azure Data Factory
- Carga dinámica usando Lookup + ForEach
🔹 2. Almacenamiento (Data Lake)
- Azure Data Lake Storage Gen2
- Contenedores: bronze, silver, gold
- Organización por esquema y tabla
🔹 3. Procesamiento y Transformación
- Azure Databricks
- Limpieza de datos
- Estandarización de columnas
- Eliminación de duplicados
- Validación de nulos
- Cálculo de métricas (ej: Total en Order Details)
- Escritura en formato Delta
🔹 4. Gobernanza
- Unity Catalog
- Storage Credentials
- External Locations
- Separación lógica por Catálogo y Schema
🔹 5. Exposición Analítica
- Synapse Serverless SQL
- Vistas externas sobre Delta
- Capa Gold con modelo listo para consumo
🔹 6. Visualización
- Power BI conectado a Synapse
- Modelo analítico basado en vistas Gold
🔹 7. Automatización y CI/CD
- GitHub Repository
- Workflows YAML
- Autenticación Federada (OIDC)
- Deploy automático DEV → PROD
</aside>
Creación Grupos de Recursos
<aside>
Creación de ambientes DEV (Desarrollo) y PROD (Producción)
GR-DEV-NORTHWIND

GR-PROD-NORTHWIND

Grupos creados

</aside>
Creación de Storage Account
<aside>
Storage Account para DEV y PROD
Creación de Cuenta de almacenamiento en DEV (Desarrollo) habilitando storage Gen2
ADSL DEV
adsldevnorthwind

ADSL PROD
adslprodnorthwind

Storage creado

</aside>