Diseñaré paneles de Grafana profesionales para Kubernetes, Linux y HPC
Ingeniero de sistemas Linux y HPC de alto rendimiento
Acerca de este Servicio
Sobre este servicio
¡Optimiza tu infraestructura! Obtén visibilidad de nivel empresarial con paneles de Grafana personalizados diseñados por un experto en AI y HPC.
En AI y computación de alto rendimiento, el rendimiento lo es todo. Construyo pilas de observabilidad avanzadas para entornos complejos. Ya sea que gestiones un clúster de entrenamiento de AI, Kubernetes (K8s), o un sistema Linux HPC, te proporciono las ideas en tiempo real que necesitas.
Lo que ofrezco:
- Monitoreo HPC y AI: Métricas profundas para uso de GPU (NVIDIA/AMD), trabajos en Slurm y InfiniBand.
- Observabilidad en Kubernetes: Monitoreo completo para K8s (GKE, EKS, AKS) enfocado en salud de recursos y escalado.
- Dominio en Linux: Paneles detallados para CPU, RAM, I/O de disco y ancho de banda de red.
- Alertas inteligentes: Configuración de alertas por Slack o Email para detectar cuellos de botella temprano.
- PromQL avanzado: Consultas expertas en Prometheus para visualización de datos a alta velocidad.
¿Por qué elegirme?
Especialista en AI: Entiendo las cargas de trabajo de entrenamiento de LLM y inferencia de AI. Rendimiento en HPC: Paneles optimizados para grandes volúmenes de datos. Tecnología moderna: Experto en Prometheus, Loki y OpenTelemetry.
¡Transformemos tus métricas en rendimiento accionable hoy mismo!
Mi porfolio
FAQ
Traducción automática
¿Puedes monitorear el uso de GPU para entrenamiento de modelos de AI?
¡Sí! Me especializo en rastrear métricas de GPU NVIDIA y AMD, incluyendo uso de memoria, temperatura y consumo de energía. Esto es esencial para optimizar clústeres de entrenamiento de AI y asegurar que tu hardware funcione eficientemente.
¿Qué fuentes de datos admitís?
Trabajo con una amplia variedad de fuentes de datos, incluyendo Prometheus, VictoriaMetrics, InfluxDB, Loki (para logs) y herramientas nativas en la nube como AWS CloudWatch y Google Stackdriver. También puedo integrar exportadores de métricas personalizadas de AI/ML.
¿Puedes configurar alertas para Slack o Email?
Por supuesto. Configuro reglas de alertas inteligentes para que te notifiquen inmediatamente sobre cargas altas de CPU/GPU, caídas de pods en Kubernetes o fallos en trabajos en tu clúster HPC. También puedo configurar rutas de guardia.
¿Soportas planificadores HPC como Slurm?
Sí. Puedo crear paneles que visualicen colas de trabajos en Slurm, disponibilidad de nodos y estado de particiones. Esto proporciona a administradores y investigadores una vista clara de la utilización de su clúster.
¿Necesito proporcionar el servidor para Grafana?
Puedo trabajar con tu configuración existente o ayudarte a desplegar una nueva instancia en AWS, GCP, Azure o Bare Metal. También soporto Grafana Cloud si prefieres una solución gestionada.

