Diseñaré paneles de Grafana profesionales para Kubernetes, Linux y HPC

Parte de la información se ha traducido automáticamente.

Pakistán

Hablo Urdu, Inglés, Español

36 pedidos completados

Ingeniero de sistemas Linux y HPC de alto rendimiento

Soy Zeeshan, ingeniero de sistemas en Linux y High-Performance Computing (HPC) especializado en construir infraestructuras escalables, seguras y de alto rendimiento para investigaciones y cargas de tr...

Acerca de este Servicio

Sobre este servicio

¡Optimiza tu infraestructura! Obtén visibilidad de nivel empresarial con paneles de Grafana personalizados diseñados por un experto en AI y HPC.

En AI y computación de alto rendimiento, el rendimiento lo es todo. Construyo pilas de observabilidad avanzadas para entornos complejos. Ya sea que gestiones un clúster de entrenamiento de AI, Kubernetes (K8s), o un sistema Linux HPC, te proporciono las ideas en tiempo real que necesitas.

Lo que ofrezco:

Monitoreo HPC y AI: Métricas profundas para uso de GPU (NVIDIA/AMD), trabajos en Slurm y InfiniBand.
Observabilidad en Kubernetes: Monitoreo completo para K8s (GKE, EKS, AKS) enfocado en salud de recursos y escalado.
Dominio en Linux: Paneles detallados para CPU, RAM, I/O de disco y ancho de banda de red.
Alertas inteligentes: Configuración de alertas por Slack o Email para detectar cuellos de botella temprano.
PromQL avanzado: Consultas expertas en Prometheus para visualización de datos a alta velocidad.

¿Por qué elegirme?

Especialista en AI: Entiendo las cargas de trabajo de entrenamiento de LLM y inferencia de AI. Rendimiento en HPC: Paneles optimizados para grandes volúmenes de datos. Tecnología moderna: Experto en Prometheus, Loki y OpenTelemetry.

¡Transformemos tus métricas en rendimiento accionable hoy mismo!

design professional grafana dashboards for kubernetes, linux, and hpc

Pantalla completa

Proveedor de la nube:

Otros

Experiencia:

Instalación

•

Copia de seguridad

•

Desarrollo

+2 más

Recurso de computación en la nube:

EC2

•

VPC

•

AKS

+2 más

Mi porfolio

FAQ

Traducción automática

¿Puedes monitorear el uso de GPU para entrenamiento de modelos de AI?

¡Sí! Me especializo en rastrear métricas de GPU NVIDIA y AMD, incluyendo uso de memoria, temperatura y consumo de energía. Esto es esencial para optimizar clústeres de entrenamiento de AI y asegurar que tu hardware funcione eficientemente.

¿Qué fuentes de datos admitís?

Trabajo con una amplia variedad de fuentes de datos, incluyendo Prometheus, VictoriaMetrics, InfluxDB, Loki (para logs) y herramientas nativas en la nube como AWS CloudWatch y Google Stackdriver. También puedo integrar exportadores de métricas personalizadas de AI/ML.

¿Puedes configurar alertas para Slack o Email?

Por supuesto. Configuro reglas de alertas inteligentes para que te notifiquen inmediatamente sobre cargas altas de CPU/GPU, caídas de pods en Kubernetes o fallos en trabajos en tu clúster HPC. También puedo configurar rutas de guardia.

¿Soportas planificadores HPC como Slurm?

Sí. Puedo crear paneles que visualicen colas de trabajos en Slurm, disponibilidad de nodos y estado de particiones. Esto proporciona a administradores y investigadores una vista clara de la utilización de su clúster.

¿Necesito proporcionar el servidor para Grafana?

Puedo trabajar con tu configuración existente o ayudarte a desplegar una nueva instancia en AWS, GCP, Azure o Bare Metal. También soporto Grafana Cloud si prefieres una solución gestionada.

¿Necesitas ser creativo?

¿Buscas expertos en tecnología?

¿Listo para llegar a los consumidores y convertirlos en clientes?

¿Buscas escritores?

Opera tus negocios con más inteligencia

Diseñaré paneles de Grafana profesionales para Kubernetes, Linux y HPC

Acerca de este Servicio

Mi porfolio

FAQ

Etiquetas relacionadas