Construiré pipelines de datos ETL usando AWS, spark, airflow
Acerca de este Servicio
Construye pipelines escalables de ingeniería de datos ETL para sistemas en la nube y locales.
¿Luchas con datos desordenados o flujos de trabajo lentos? Diseño e implemento pipelines de ETL y ELT de extremo a extremo que automatizan la ingesta, transformación, validación y carga de datos en plataformas modernas de la nube.
Usando herramientas como Spark, Python, SQL, Airflow, Snowflake, Databricks, AWS y GCP, construyo pipelines de datos listos para producción que convierten datos en bruto en infraestructura de análisis confiable.
Lo que ofrezco:
- Pipelines de ETL y ELT (batch o streaming)
- Integraciones con API, bases de datos y almacenamiento en la nube
- Despliegue nativo en la nube: AWS Glue, Lambda, Redshift, Azure Data Factory, Synapse, Databricks, GCP Dataflow, BigQuery
- Pila tecnológica de Big Data: Implementación experta de Kafka, Hadoop y Hive.
- Orquestación y automatización: Airflow o Dagster.
¿Por qué elegirme?
- Código limpio y fácil de mantener con documentación clara
- Comunicación efectiva y definición transparente del proyecto
- Experiencia trabajando con pilas modernas de nube y big data
Me enfoco en construir sistemas de datos que sean confiables, rentables y fáciles de ampliar, no solo en mover datos.
Nota: Por favor, envíame un mensaje antes de hacer el pedido para que podamos alinearnos en los requisitos y definir correctamente el alcance de tu proyecto.
FAQ
Traducción automática
¿Con qué proveedores de nube trabajas?
Soy competente en todos los principales ecosistemas en la nube, incluyendo AWS (Glue, Redshift, EMR, S3), Azure (Data Factory, Synapse, Databricks) y Google Cloud Platform (BigQuery, Dataflow). También puedo crear soluciones on-premise usando herramientas de código abierto como Docker y Kubernetes.
¿Cómo garantizas que los datos sean precisos y limpios?
Implemento un enfoque de Calidad de Datos en múltiples capas. Esto incluye validación de esquemas en el punto de ingesta, pruebas unitarias automatizadas para la lógica de transformación y alertas de monitoreo que nos notifican inmediatamente si hay deriva o anomalías en los datos.
¿Será costoso ejecutar el pipeline en la nube?
La optimización del rendimiento es una parte fundamental de mi servicio. Mejoro los trabajos de Spark (particionamiento, caching y shuffling) y elijo las instancias de cómputo adecuadas para asegurar que tu pipeline sea lo más rentable posible. Busco el máximo rendimiento con el mínimo consumo de recursos.
¿Puedes gestionar la transmisión de datos en tiempo real?
Sí. Para requisitos de latencia inferior a un segundo, uso Apache Kafka o AWS Kinesis junto con Spark Streaming o Flink. Puedo diseñar sistemas que procesen datos en el momento en que se generan, ideal para dashboards en vivo o aplicaciones IoT.
¿Qué necesitas para empezar?
Necesitaré entender claramente tus fuentes de datos (APIs, bases de datos, CSVs), el destino (Data Warehouse, Data Lake) y la lógica de negocio para las transformaciones. Si trabajamos en la nube, también necesitaré acceso temporal IAM o un entorno colaborativo para desplegar la infraestructura.
¿Proporcionas documentación para la arquitectura?
Por supuesto. Cada proyecto incluye documentación técnica que cubre la arquitectura del sistema, el linaje de datos y las instrucciones para mantener o escalar el pipeline. Para pedidos Premium, proporciono un Diccionario de Datos detallado.
