Parece que este servicio está en espera
Ayudaré en ingeniería de datos, gobernanza y descubrimiento.
India
Arquitecto en ingeniería de datos, data warehouse y data lake: Delta
Acerca de este Servicio
En el panorama actual impulsado por los datos, las organizaciones exigen agilidad y escalabilidad para desbloquear todo el potencial de sus activos de datos. Mi experiencia consiste en diseñar e implementar tuberías ETL robustas y de alto rendimiento que conectan las bases de datos tradicionales OLTP con arquitecturas modernas de data lakehouse, permitiendo a tu organización obtener insights accionables tanto de cargas de trabajo analíticas como operativas.
Me especializo en el diseño, desarrollo y despliegue de pipelines de datos adaptados para ingesta y transformación de datos en lotes, en tiempo real y casi en tiempo real desde bases de datos compatibles con OLTP, como MySQL, AWS Aurora y GCP Cloud SQL. Estas pipelines se integran perfectamente con formatos modernos de data lakehouse, incluyendo Apache Hudi, Iceberg y Delta Lake, permitiéndote construir una base de datos unificada y escalable.
Al implementar mis pipelines ETL, tu organización podrá:
- Mejorar el acceso y la usabilidad de los datos para fines analíticos y operativos.
- Reducir la complejidad en la gestión de datos aprovechando la base de datos unificada de un data lakehouse.
- Mejorar la gobernanza y el cumplimiento de datos mediante un linaje y auditorías robustas.
Soluciones de datos para tu edge
FAQ
Traducción automática
¿También ingestas datos desde CSV, JSON, S3/GCS en Parquet?
Sí, mediante una pipeline ETL en Scala altamente configurable que ingiere archivos diversos en Hudi/Delta Lakehouse. La integración con Hive Metastore asegura un descubrimiento de datos sin problemas a través de Athena/Trino/Presto.
¿También ingestas datos directamente desde un tópico de Kafka?
Sí, tengo una pipeline ETL en Scala muy configurable que lee el tópico de Kafka en micro-batches y escribe en formato de archivo Lakehouse. Aprovechando Hive Metastore para ofrecer un catálogo de datos unificado para Athena/Trino/Presto o cualquier motor de consulta SQL.
¿Lees la instancia de MySQL usando conexión JDBC o binlog?
Cuento con una base de código ETL completamente configurable que lee tablas basadas en MySQL usando conexión JDBC de forma incremental, completa o habilitando el binlog (con Debezium/Maxwell) y enviando a Kafka para ingesta en tiempo real en el formato de archivo Lakehouse. La detección de datos se habilita mediante Hive Metastore.

