Supervisar el entrenamiento con RFT - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Supervisar el entrenamiento con RFT

Supervise las métricas clave durante la formación para garantizar un aprendizaje efectivo e identificar los posibles problemas a tiempo.

Métricas clave para realizar un seguimiento

Supervisa las siguientes métricas MlFlow durante el entrenamiento:

Métricas de recompensas:

  • Puntuación media de recompensa: calidad general de las respuestas del modelo (debería aumentar con el tiempo)

  • Distribución de recompensas: porcentaje de respuestas que reciben recompensas altas, medias y bajas

  • Recompensas de entrenamiento versus recompensas de validación: compárelas para detectar el sobreajuste

Métricas de entrenamiento:

  • Actualizaciones de políticas: número de actualizaciones de peso que se han realizado correctamente

  • Tasa de finalización del despliegue: porcentaje de muestras evaluadas correctamente

En cuanto a los patrones:

  • Las recompensas se estancan (indica un aprendizaje deficiente)

  • Las recompensas de validación disminuyen mientras que las de entrenamiento aumentan (sobreajuste)

  • La variación de las recompensas aumenta significativamente con el tiempo (inestabilidad)

  • Alto porcentaje de errores en las funciones de recompensa (problemas de implementación)

Cuándo dejar de entrenar:

  • Se alcanzan las métricas de rendimiento objetivo

  • Las recompensas se estancan y ya no mejoran

  • El rendimiento de la validación se degrada (se detecta un sobreajuste)

  • Se alcanza el presupuesto máximo de formación

Guía de hiperparámetros

Utilice los siguientes hiperparámetros recomendados en función de su enfoque de entrenamiento:

General:

  • Épocas: 1

  • Tasa de aprendizaje (lr): 1e-7

  • Número de generaciones: 8

  • Número máximo de fichas nuevas: 8192

  • Tamaño del lote: 256

LoRa (adaptación de rango bajo):

  • Rango LoRa: 32

nota

Ajuste estos valores en función del tamaño de su conjunto de datos y del rendimiento de la validación. Supervisa las métricas de entrenamiento para evitar el sobreajuste.

Evaluación después de la RFT

Una vez finalizada la capacitación, evalúe su modelo ajustado para evaluar las mejoras en el rendimiento:

  • Ejecute un trabajo de evaluación de la RFT: utilice el punto de control de su formación en RFT como modelo

  • Compare con la línea base: evalúe tanto el modelo base como el modelo ajustado en el mismo conjunto de pruebas

  • Analice las métricas: revise las métricas específicas de la tarea (precisión, puntajes de recompensa, etc.)

  • Realice una revisión cualitativa: inspeccione manualmente los resultados de las muestras para comprobar su calidad

Para conocer los procedimientos de evaluación detallados, consulte la sección Evaluación.

Uso de modelos ajustados

Acceso a los puntos de control:

Una vez finalizada la capacitación, localice su punto de control:

  1. Dirígete a tu output_path S3

  2. Descarga y extrae output.tar.gz

  3. Abra manifest.json.

  4. Copia el checkpoint_s3_bucket valor

Despliegue para la inferencia:

Utilice la ruta S3 del punto de control para realizar inferencias o seguir formándose:

run: model_type: amazon.nova-2-lite-v1:0:256k model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<job-name>"

Para obtener instrucciones de implementación e inferencia, consulte la sección Inferencia.

Limitaciones y mejores prácticas

Limitaciones actuales:

Restricciones de la beta:

  • Necesito crear un nuevo grupo RIG para RFT. GA resolverá esta limitación.

  • No se permiten grupos de instancias que no sean de RIG: asegúrate de que tu HyperPod clúster contenga solo grupos de instancias restringidos (RIGs), no grupos de instancias normales. GA resolverá esta limitación.

  • Requisitos de tipo de instancia: solo se admiten instancias P5 (mínimo 8 P5.48xLarge). Próximamente: Support para tipos de instancias más pequeños (ETA: mediados de enero de 2025).

Limitaciones funcionales:

  • Tiempo de espera de Lambda de 15 minutos: las funciones de recompensa deben completarse en 15 minutos

  • Solo en un turno: no se admiten conversaciones en varios turnos

  • Conjuntos de datos de validación: no se admiten durante el entrenamiento. Utilice trabajos de evaluación independientes para evaluar el progreso de la formación.

Consideraciones sobre la formación:

  • Escenarios de baja recompensa: pueden tener problemas cuando menos del 5% de los ejemplos reciben recompensas positivas; opte primero por la SFT

  • Requisitos de datos: necesita suficiente diversidad para aprender de forma eficaz

  • Coste computacional: más caro que el ajuste supervisado

Nova Forge elimina algunas de estas limitaciones:

  • Soporta conversaciones en varios turnos

  • Permite funciones de recompensa que superen los tiempos de espera de 15 minutos

  • Proporciona algoritmos avanzados y opciones de ajuste

  • Diseñado para casos de uso empresarial complejos, ajustado específicamente para crear modelos de vanguardia

Prácticas recomendadas:

Comience con algo pequeño y escale:

  • Comience con conjuntos de datos mínimos (100 a 200 ejemplos) y pocas épocas de entrenamiento

  • Valide su enfoque antes de ampliarlo

  • Aumente gradualmente el tamaño del conjunto de datos y los pasos de entrenamiento en función de los resultados

Base de referencia con SFT primero:

  • Si los puntajes de recompensa son consistentemente bajos (por ejemplo, siempre 0), realice la SFT antes que la RFT

  • La RFT requiere un rendimiento de referencia razonable para mejorar de forma eficaz

Diseñe funciones de recompensa eficientes:

  • Ejecute en segundos, no en minutos

  • Minimice las llamadas a la API externa

  • Utilice algoritmos y estructuras de datos eficientes

  • Implemente un manejo de errores adecuado

  • Pruébelo minuciosamente antes del entrenamiento

  • Aproveche las capacidades de escalado paralelo de Lambda

Supervise la formación de forma activa:

  • Realice un seguimiento del promedio de las puntuaciones de recompensa a lo largo

  • Observe la distribución de las recompensas entre las muestras

  • Compare las recompensas de formación con las de validación

  • Busque patrones preocupantes (mesetas, sobreajuste, inestabilidad)

Repite en función de los resultados:

  • Si las recompensas no mejoran después de varias iteraciones, ajusta el diseño de la función de recompensa

  • Aumente la diversidad de los conjuntos de datos para proporcionar señales de aprendizaje más claras

  • Considere cambiarse a SFT si las recompensas siguen siendo casi nulas

  • Experimente con diferentes hiperparámetros (tasa de aprendizaje, tamaño del lote)

Optimice la calidad de los datos:

  • Garantice ejemplos diversos y representativos

  • Incluya casos extremos y muestras difíciles

  • Verifique que la función de recompensa puntúe correctamente todos los tipos de ejemplos

  • Elimine o corrija las muestras que confundan la función de recompensa

Resolución de problemas

Errores en la función de recompensa:

Síntomas: alta tasa de error en las llamadas a la función de recompensa durante el entrenamiento

Problema

Síntomas

Resolución

Tiempo de espera de Lambda

Tiempos de espera frecuentes después de 15 minutos

Optimice el rendimiento de las funciones; considere Nova Forge para evaluaciones complejas

Simultaneidad insuficiente

Errores de regulación Lambda

Aumente lambda_concurrency_limit o solicite un aumento de cuota

Formato de devolución no válido

El entrenamiento falla debido a errores de formato

Compruebe que la estructura de devoluciones coincide con el formato de interfaz requerido

Excepciones no controladas

Errores intermitentes

Añada un sistema integral de gestión y registro de errores

Fallos de la API externa

Puntuación inconsistente

Implemente una lógica de reintentos y estrategias alternativas

Rendimiento de entrenamiento deficiente:

Síntomas: las recompensas no mejoran o se estabilizan a valores bajos

Resoluciones:

  • Verifique la exactitud de la función de recompensa: pruébela con ejemplos conocidos good/bad

  • Compruebe el rendimiento de referencia: evalúe el modelo base; si la precisión es cercana a cero, realice primero la SFT

  • Aumente la diversidad de datos: añada ejemplos más variados que cubran diferentes escenarios

  • Ajuste los hiperparámetros: pruebe diferentes velocidades de aprendizaje o tamaños de lotes

  • Revise la calidad de la señal de recompensa: asegúrese de que las recompensas diferencien entre respuestas buenas y malas

Sobreajuste:

Síntomas: las recompensas de entrenamiento aumentan mientras que las de validación disminuyen

Resoluciones:

  • Reduzca los pasos de capacitación: deje de capacitarse antes

  • Aumente el tamaño del conjunto de datos: añada más ejemplos de entrenamiento

  • Añadir regularización: ajustar o weight_decay entropy_coeff

  • Aumente la diversidad de datos: asegúrese de que el conjunto de capacitación represente una distribución completa