Configuraré el Unity catalog de databricks, capas medallón y pipelines ETL en pyspark
Ingeniero de datos, desarrollador de Python, automatización con IA y agentes de IA
Revisado por el equipo de Fiverr Pro
El equipo de Fiverr Pro seleccionó a Hamza Anwar por su experiencia.
Revisado para
Ingeniería de datos
Acerca de este Servicio
Vetted Pro
La mayoría de los proyectos de data lake fracasan en Silver. Los datos en bruto llegan a Bronze y simplemente permanecen allí desordenados, no confiables, inutilizables. Construyo todo el pipeline desde la ingestión de datos en bruto hasta una capa Gold que tus herramientas de BI puedan consultar realmente.
Soy un ingeniero de datos en Python con experiencia práctica en Databricks que cubre toda la pila del lakehouse con arquitectura medallón, pipelines PySpark, Delta Lake, Unity Catalog y Databricks Workflows. También tengo una maestría en Business Intelligence, así que entiendo cómo deben lucir los datos en la capa Gold para que los informes funcionen realmente.
Lo que construiré para ti:
- Arquitectura medallón (Bronze / Silver / Gold) diseñada en torno a tus fuentes de datos y lógica de negocio
- Notebooks de PySpark documentados, probados y listos para producción.
- Tablas Delta con particionado adecuado, Z-ordering y vacuuming.
- Configuración de Unity Catalog con esquemas, catálogos y políticas de acceso.
- Databricks Workflows para programar, monitorear y reintentar tus pipelines automáticamente.
- Capa Gold lista para BI que tu equipo puede consultar desde el primer día.
No estás seguro de qué necesitas? Envíame tus fuentes de datos y tu objetivo final y te diré exactamente qué tiene sentido construir.
Plataforma de almacenes:
Databricks
Tipo de proyecto:
Nueva creación
Clientes con los cuales he trabajado
Acuity Healthcare
Built an automated healthcare executive leads pipeline in Python that scrapes Indeed, enriches contacts via Apollo, anymailfinder, verifies emails through Million Verifier, and delivers 2,000 job-matched leads per batch to Excel.
mar 2026-may 2026
Mi porfolio
Otros servicios de Ingeniería de datos que ofrezco
FAQ
Traducción automática
¿Qué es la arquitectura medallón y la necesito?
Medallion es un enfoque en capas para organizar datos en un lakehouse. Bronze contiene datos en bruto. Silver los limpia y conforma. Gold los agrega en tablas listas para negocio. Si tienes múltiples fuentes de datos y necesitas datos confiables y consultables para informes o ML, es el patrón adecuado.
¿Necesito un workspace de Databricks ya configurado?
Sí, necesitarás un workspace de Databricks configurado en Azure, AWS o GCP. Trabajo dentro de tu entorno para que todo quede en tu cuenta. Si no estás seguro de qué configurar primero, envíame un mensaje y te guiaré en la dirección correcta.
¿Qué fuentes de datos puedes ingerir en Bronze?
APIs REST, bases de datos relacionales (PostgreSQL, MySQL, SQL Server), archivos en almacenamiento en la nube (CSV, JSON, Parquet, Avro en S3 o ADLS), fuentes en streaming vía Auto Loader y plataformas de terceros. Dime tus fuentes y te confirmaré qué es sencillo y qué requiere trabajo adicional.
¿Qué es Unity Catalog y por qué importa?
Unity Catalog es la capa de gobernanza de datos de Databricks. Permite controlar quién puede acceder a qué tablas, rastrear el linaje de datos y gestionar esquemas en diferentes workspaces en un solo lugar. Para equipos con múltiples usuarios o requisitos regulatorios, vale la pena configurarlo desde el principio.
¿La capa Gold puede conectarse a Power BI o Tableau?
Sí. Las tablas Delta de Gold se conectan de forma nativa a Power BI mediante el conector de Databricks, y a Tableau y Looker Studio de la misma manera. Estructuro la capa Gold para que tu herramienta de BI pueda consultarla directamente sin necesidad de transformaciones adicionales.

