Diagnosticaré y solucionaré los problemas de rendimiento de tu cluster HPC

Parte de la información se ha traducido automáticamente.

India

Hablo Inglés
Como arquitecto de soluciones HPC, he configurado siete sistemas HPC en toda la India, integrando hardware y software de vanguardia para tareas computacionales de alta demanda. Me especializo en optim...
Acerca de este Servicio

La mayoría de los clusters HPC funcionan al 30-40% de su capacidad real.


No porque el hardware esté mal. Sino porque la configuración nunca fue ajustada para la carga de trabajo real.


He diagnosticado este problema exacto en instituciones de investigación, laboratorios de IA y equipos de ingeniería. Las soluciones casi siempre están en el software y la configuración, no en el hardware.


Lo que cubre la auditoría:


Brechas en la configuración de Slurm (DefMemPerCPU, cgroup, fairshare)

Validación de la salud y velocidad del enlace de la red InfiniBand

Rendimiento del almacenamiento (configuración de stripe en Lustre/BeeGFS/NFS)

Vinculación de procesos MPI y topología NUMA

Eficiencia de HPL vs pico teórico

Detección de fallos silenciosos y salud de los nodos


Lo que recibirás:


Diagnóstico escrito con calificación de severidad por hallazgo

Solución exacta para cada problema, comandos incluidos, números de benchmark antes/después

Orden de prioridad: qué arreglar primero para mayor impacto


Lo que necesito de ti: acceso SSH al nodo de login, tus especificaciones del cluster y 2 horas de baja actividad para realizar benchmarks.


Tiempo de entrega: 24-48 horas después de que se otorgue el acceso.

Dispositivo:

Servidor

Sistema operativo:

Linux

Otros servicios de Soporte y IT que ofrezco

Etiquetas relacionadas