Diagnosticaré y solucionaré los problemas de rendimiento de tu cluster HPC
Acerca de este Servicio
La mayoría de los clusters HPC funcionan al 30-40% de su capacidad real.
No porque el hardware esté mal. Sino porque la configuración nunca fue ajustada para la carga de trabajo real.
He diagnosticado este problema exacto en instituciones de investigación, laboratorios de IA y equipos de ingeniería. Las soluciones casi siempre están en el software y la configuración, no en el hardware.
Lo que cubre la auditoría:
Brechas en la configuración de Slurm (DefMemPerCPU, cgroup, fairshare)
Validación de la salud y velocidad del enlace de la red InfiniBand
Rendimiento del almacenamiento (configuración de stripe en Lustre/BeeGFS/NFS)
Vinculación de procesos MPI y topología NUMA
Eficiencia de HPL vs pico teórico
Detección de fallos silenciosos y salud de los nodos
Lo que recibirás:
Diagnóstico escrito con calificación de severidad por hallazgo
Solución exacta para cada problema, comandos incluidos, números de benchmark antes/después
Orden de prioridad: qué arreglar primero para mayor impacto
Lo que necesito de ti: acceso SSH al nodo de login, tus especificaciones del cluster y 2 horas de baja actividad para realizar benchmarks.
Tiempo de entrega: 24-48 horas después de que se otorgue el acceso.
Dispositivo:
Servidor
Sistema operativo:
Linux
