Brindaré consultoría de aiops y sre para devops y confiabilidad en la nube
Ingeniero de infraestructura GPU LLMOps NVIDIA Kubernetes Neo Cloud
Acerca de este Servicio
¿Estás lanzando productos LLM pero tienes dificultades con la infraestructura GPU, escalabilidad y confiabilidad? Ayudo a los equipos a construir plataformas GPU de nivel producción de principio a fin.
Lo que obtienes: configuración de GPU en Neo cloud y endurecimiento del clúster, programación de GPU en Kubernetes y autoscaling para entrenamiento e inferencia de LLM (vLLM/Ollama/Triton), CI/CD de MLOps/LLMOps para modelos y pipelines de datos, monitoreo y alertas de GPU usando NVIDIA DCGM + Prometheus + Grafana, optimización de costos, planificación de capacidad y mejores prácticas de observabilidad.
Los entregables pueden incluir revisión de arquitectura, plan de despliegue y implementación práctica según el nivel del paquete.
Herramientas:
Docker
•
GitLab
•
Jenkins
•
GitHub
•
CircleCI
Marcos:
Terraform
•
Ansible
Lenguaje de programación:
Bash
•
Python
•
Golang
Experiencia:
Instalación
•
Migración
•
Configuración
