Construiré una pipeline ETL con python, airflow y dbt
Acerca de este Servicio
¿Tus datos están dispersos en varias fuentes sin una pipeline confiable para moverlos, limpiarlos y entregarlos donde deben ir?
Construyo pipelines ETL y ELT listas para producción usando Python, Apache Airflow y dbt, automatizadas, probadas y documentadas para que tu equipo pueda mantenerlas sin mi ayuda.
LO QUE OBTIENES:
- Pipeline ETL/ELT personalizado adaptado a tus fuentes de datos
- DAGs de Apache Airflow con programación y lógica de reintentos
- Modelos de transformación dbt con pruebas de calidad de datos
- Patrones de carga incremental y completa
- Código controlado con Git, documentado
- Entrega en Snowflake, BigQuery, Redshift o Postgres
POR QUÉ ELEGIRME:
Soy ingeniero de datos certificado por Microsoft. Construí Medallion Lakehouse en Microsoft Fabric. Competente en Python, SQL, PySpark, Airflow, dbt, Kafka, Snowflake y BigQuery.
Cada pipeline que entrego funciona en producción, no solo en un cuaderno.
Antes de ordenar, envíame un mensaje para confirmar que tu stack es compatible.
FAQ
Traducción automática
¿A qué fuentes de datos puedes conectarte?
Puedo construir pipelines ETL desde REST APIs, PostgreSQL, MySQL, MongoDB, archivos planos (CSV, JSON, Parquet), Google Sheets, S3 y la mayoría de plataformas SaaS. Si tienes una fuente específica, envíame un mensaje antes de ordenar.
¿Qué data warehouses soportas?
Entrego en Snowflake, Google BigQuery, Amazon Redshift, PostgreSQL, Microsoft Fabric y Azure Synapse. También puedo trabajar con formatos Delta Lake o Apache Iceberg en almacenamiento en la nube.
¿Usas Apache Airflow para orquestación?
Sí. Construyo DAGs de Airflow con programación, lógica de reintentos, alertas y gestión de dependencias. También puedo usar Prefect si prefieres una herramienta de orquestación más ligera.
¿Qué es dbt y lo necesito?
dbt (data build tool) gestiona la capa de transformación en tu pipeline ELT usando SQL. Añade pruebas de calidad de datos, auto-documentación y control de versiones. Lo recomiendo para cualquier proyecto basado en data warehouse.
¿El pipeline se ejecutará automáticamente en un horario?
Sí. Todos los pipelines incluyen programación automática mediante Airflow o cron. Tú eliges la frecuencia — cada hora, diario o por evento — y yo lo configuro en consecuencia.
¿Proporcionas documentación?
Sí. Cada entrega incluye un README, documentación generada automáticamente por dbt y comentarios en el código. Podrás entender, ampliar y mantener el pipeline sin mi ayuda.
¿Puedes trabajar con mi stack de datos existente?
Sí. Envíame tu stack actual antes de ordenar y confirmaré la compatibilidad. He trabajado con entornos AWS, GCP y Azure y puedo integrarme en la mayoría de configuraciones existentes.
¿Manejas pipelines de streaming en tiempo real?
Sí. El paquete Premium incluye Apache Kafka para pipelines en tiempo real basados en eventos. Si necesitas streaming en un alcance menor, envíame un mensaje y te cotizaré en consecuencia.
¿Qué necesitas de mí para empezar?
Necesito tus fuentes de datos, el warehouse de destino, la lógica de transformación o reglas de negocio, y las credenciales de acceso. Te proporcionaré una lista de verificación después de que hagas tu pedido.
¿El código está controlado con versiones?
Sí. Todo el código se entrega mediante un repositorio Git con un historial de commits limpio. Sigo las mejores prácticas de ingeniería de software — nada de archivos zip con scripts sueltos.

