Construiré un pipeline de data lakehouse en tiempo real

Parte de la información se ha traducido automáticamente.

Sri Lanka

Hablo Cingalés, Inglés

Desarrollador en Python, FastAPI, Web Scraping, automatización con IA, ingeniería de datos

Soy ingeniero de datos con más de 3 años de experiencia en la industria creando APIs RESTful, sistemas de web scraping y aplicaciones impulsadas por IA. Me especializo en FastAPI, Streamlit y LangGrap...
Acerca de este Servicio

¿Buscas construir un pipeline de datos en tiempo real que mantenga tu data warehouse siempre actualizado sin trabajos ETL manuales?


Diseñaré y entregaré un pipeline de data lakehouse completamente automatizado, de extremo a extremo, que capture cada cambio en tu base de datos en el momento en que sucede, lo transmita a través de Kafka y lo coloque en tablas Delta Lake consultables, todo orquestado y monitoreado por Apache Airflow.

Lo que obtienes:


  • CDC en vivo desde tu base de datos MySQL (sin tiempo de inactividad, sin exportaciones manuales)
  • Procesamiento de streams escalable con Apache Spark
  • Almacenamiento Delta Lake compatible con S3 (MinIO) consultable con Trino o Spark SQL
  • DAG de Airflow para chequeos de salud automatizados y monitoreo del pipeline
  • Ejecutado completamente en Docker en tu servidor o VM en la nube
  • Guía de configuración y documentación incluida


Perfecto para startups, equipos de datos y negocios que necesitan disponibilidad de datos en tiempo real confiable sin gestionar infraestructura compleja desde cero.

Plataforma de destino:

Databricks Lakehouse

Postgresql

mySQL

Herramientas y plataformas:

Airbyte

Kafka Connect

Debezium

Mi porfolio