Brindaré consultoría de aiops y sre para devops y confiabilidad en la nube

Parte de la información se ha traducido automáticamente.

Estados Unidos

Hablo Inglés

Ingeniero de infraestructura GPU LLMOps NVIDIA Kubernetes Neo Cloud

Construyo infraestructura escalable de GPU NVIDIA para entrenamiento e inferencia de IA. Me especializo en clústeres de GPU con Kubernetes, entrenamiento e inferencia de LLM y observabilidad de GPU. ...
Acerca de este Servicio

¿Estás lanzando productos LLM pero tienes dificultades con la infraestructura GPU, escalabilidad y confiabilidad? Ayudo a los equipos a construir plataformas GPU de nivel producción de principio a fin.

Lo que obtienes: configuración de GPU en Neo cloud y endurecimiento del clúster, programación de GPU en Kubernetes y autoscaling para entrenamiento e inferencia de LLM (vLLM/Ollama/Triton), CI/CD de MLOps/LLMOps para modelos y pipelines de datos, monitoreo y alertas de GPU usando NVIDIA DCGM + Prometheus + Grafana, optimización de costos, planificación de capacidad y mejores prácticas de observabilidad.

Los entregables pueden incluir revisión de arquitectura, plan de despliegue y implementación práctica según el nivel del paquete.

Herramientas:

Docker

GitLab

Jenkins

GitHub

CircleCI

Marcos:

Terraform

Ansible

Proveedor de la nube:

Amazon Web Services

microsoft azure

Lenguaje de programación:

Bash

Python

Golang

Experiencia:

Instalación

Migración

Configuración

Etiquetas relacionadas