Me enfocaré en memoria RAG de agentes de aprendizaje profundo multiagente

Parte de la información se ha traducido automáticamente.

China

Hablo Inglés

Desarrollador e investigador de IA

Soy ingeniero e investigador en IA especializado en aprendizaje profundo, modelos de lenguaje grandes, IA multimodal, modelos de difusión, arquitecturas basadas en Mamba, IA agentica, aprendizaje por ...

Acerca de este Servicio

## Guía innovadora de diseño y mejora para el aprendizaje por refuerzo agentico RL y LLM

Los LLMs están evolucionando gradualmente de máquinas de preguntas y respuestas de un solo turno a sistemas agenticos capaces de interactuar repetidamente

entre razonamiento y uso de herramientas externas en configuraciones de múltiples turnos. Desde Search-R1 hasta ToolRL y SkyRL, los modelos ahora necesitan

no solo pensar, sino también buscar, calcular, llamar a APIs y mejorar continuamente mediante RL en trayectorias de múltiples pasos.

## 1. Mejoras innovadoras en el diseño de algoritmos RL agenticos

### 1.1 Arquitectura de aprendizaje por refuerzo jerárquico

Un mecanismo de toma de decisiones jerárquico divide las decisiones de los agentes en tres niveles: la capa estratégica para la descomposición de tareas, la capa táctica para la selección de herramientas y la capa de ejecución para operaciones concretas. Cada capa

adopta una política RL diferente.

El descubrimiento automático de subobjetivos permite a los agentes identificar subobjetivos intermedios reutilizables durante el entrenamiento y construir una

biblioteca de habilidades.

El aprendizaje por currículo automatizado enfatiza en permitir que los agentes progresen de manera autónoma desde tareas simples hasta tareas complejas

sin currículos diseñados manualmente.

### 1.2 Interacción en entornos multimodales