Desarrollaré pipelines ETL escalables usando Databricks
Acerca de este Servicio
¿Necesitas un pipeline ETL robusto y escalable basado en Databricks? ¡Estás en el lugar indicado!
Soy Gajendra, ingeniero de datos certificado y analista de datos con más de 6 años de experiencia en la creación de soluciones integrales de datos para empresas. Ya sea que trabajes con datos por lotes o en streaming, me especializo en el diseño de pipelines ETL limpios, eficientes y listos para producción con Databricks , PySpark y AWS .
Lo que ofrezco:
- Desarrollo de canalizaciones ETL/ELT de extremo a extremo en Databricks
- Ingesta de datos de múltiples fuentes (S3, RDS, API, etc.)
- Limpieza, transformación y enriquecimiento de datos con PySpark
- Integración con Delta Lake, SQL y almacenamiento en la nube
- Orquestación del flujo de trabajo con Databricks Jobs o Apache Airflow
- Implementación controlada por versiones (Git, CI/CD)
- Documentación y entrega basada en cuadernos
Herramientas y tecnologías: Databricks (trabajos, notebooks, Delta Lake), PySpark , SQL, AWS (S3, Glue, Lambda, RDS), flujos de trabajo Airflow /Databricks, Git , CI/CD , DBFS
¿Por qué trabajar conmigo?
- Certificado en Databricks y AWS
- Más de 6 años de experiencia en ingeniería y análisis de datos
- Comunicación rápida y clara
- Código de nivel de producción con diseño reutilizable
¡Automatizamos y escalamos sus flujos de trabajo de datos de la manera correcta!
FAQ
Traducción automática
¿Qué necesitas de mí para empezar?
Solo una breve descripción de sus fuentes de datos, resultados esperados y configuración de la nube (si corresponde).
¿Puede trabajar con datos locales o de otros proveedores de la nube?
Sí, pero AWS es mi especialidad. Podemos hablar sobre otras opciones.
