Escribiré trabajos de pyspark para datos tanto en batch como en streaming
Acerca de este Servicio
¿Necesitas un ingeniero de datos experto para optimizar tu procesamiento de datos, pipelines ETL y arquitectura de data lake? ¡No busques más! Tengo experiencia profunda en crear soluciones robustas usando PySpark, EMR, Apache Hive e incluso Apache Hudi. Con un sólido conocimiento en procesamiento de datos en batch y streaming, estoy aquí para mejorar tus flujos de trabajo de datos para mayor eficiencia y precisión.
Servicios que ofrezco:
Trabajos ETL con PySpark:
Transforma, limpia y procesa tus datos de manera eficiente usando PySpark. Crearé pipelines ETL personalizados adaptados a tus necesidades específicas, asegurando resultados de alta calidad.
Trabajos en batch y streaming:
Ya sea procesar datos en masa o manejar flujos en tiempo real, puedo diseñar e implementar ambos tipos de trabajos usando las mejores prácticas de la industria.
Experiencia en EMR:
Aprovecha el poder de Amazon Elastic MapReduce (EMR) para procesamiento distribuido de datos. Crearé clusters EMR, optimizaré la ejecución de trabajos y ajustaré el rendimiento.
Otros:
Puedo integrar tu trabajo con Apache Hive e incluso ofrecer mi experiencia en Apache Hudi. También puedo subir tus datos a Amazon S3 si estás trabajando en un DataLake.
Espero comenzar a trabajar contigo. ¡Saludos!
Tecnología:
Apache Hadoop
•
apache spark
•
Excel
•
Python
•
SQL
•
NoSQL
