Construiré pipelines de datos de extremo a extremo en GCP usando pubsub, kafka y dataform
Acerca de este Servicio
Una plataforma de datos moderna requiere una ingesta robusta y análisis modelados con precisión. Como ingeniero de datos certificado en Google Cloud, construyo sistemas de extremo a extremo que garantizan la integridad de los datos desde la fuente hasta el panel de control.
Diseño pipelines impulsados por eventos de alto volumen con una entrega estricta de al menos una vez, mientras creo modelos centralizados en BigQuery que unifican tablas dispares de más de 19 unidades de negocio.
Lo que puedo hacer por ti:
- Ingesta en tiempo real: Diseñar sistemas seguros usando Apache Kafka y GCP Pub/Sub en Java Spring Boot.
- Procesamiento sin servidor: Crear microservicios desacoplados con Cloud Run para transformar grandes conjuntos de datos.
- Modelado dimensional: Convertir datos crudos de BigQuery en esquemas estrella usando Dataform, aplicando SCD Tipo 2 y 4.
- Orquestación: Coordinar flujos de trabajo ELT en varias etapas con Cloud Composer (Airflow) para automatizar trabajos de Dataform.
Tecnologías que uso: GCP Pub/Sub, Kafka, BigQuery, Dataform, Java (Spring Boot), Cloud Run, Airflow y Terraform.
¿Por qué elegirme? Obtén un experto en la nube certificado que implementa marcos sólidos de calidad de datos, registrando fallos de afirmación en tablas de errores persistentes para que tus análisis sigan siendo confiables.
Hablemos antes de que hagas tu pedido para definir el alcance.
FAQ
Traducción automática
¿Cómo manejas la diferencia entre datos en streaming y modelado por lotes?
Utilizo un enfoque moderno donde Pub/Sub y Cloud Run manejan la ingesta en tiempo real, ingresando los datos de forma segura en tablas crudas de BigQuery. Luego, programo Dataform a través de Cloud Composer (Airflow) para limpiar, probar y modelar periódicamente esos datos crudos en tablas curadas listas para el negocio.
¿Puedes garantizar que no se perderán mensajes en streaming?
Sí. Diseño sistemas con garantías estrictas de entrega de al menos una vez, usando lógica de reintento robusta y almacenamiento intermedio de objetos para asegurar una tolerancia total a fallos.
¿Usas Dataform o dbt para el modelado en BigQuery?
Recomiendo mucho Dataform para stacks nativos de GCP, ya que está completamente gestionado dentro de BigQuery e integra perfectamente con Cloud Composer. Sin embargo, tengo experiencia en ambos herramientas, dependiendo de tu entorno.
¿Cómo aseguras que los datos modelados sean precisos?
Implemento un marco robusto de calidad de datos en Dataform para detectar fallos de afirmación. Cualquier fallo de validación se enruta automáticamente a una tabla de errores persistente en BigQuery para revisión.

