Métricas clave para realizar un seguimiento Guía de hiperparámetros Evaluación después de la RFT Uso de modelos ajustados Limitaciones y mejores prácticas Resolución de problemas

Supervisar el entrenamiento con RFT

Supervise las métricas clave durante la formación para garantizar un aprendizaje efectivo e identificar los posibles problemas a tiempo.

Temas

Métricas clave para realizar un seguimiento
Guía de hiperparámetros
Evaluación después de la RFT
Uso de modelos ajustados
Limitaciones y mejores prácticas
Resolución de problemas

Métricas clave para realizar un seguimiento

Supervisa las siguientes métricas MlFlow durante el entrenamiento:

Métricas de recompensas:

Puntuación media de recompensa: calidad general de las respuestas del modelo (debería aumentar con el tiempo)
Distribución de recompensas: porcentaje de respuestas que reciben recompensas altas, medias y bajas
Recompensas de entrenamiento versus recompensas de validación: compárelas para detectar el sobreajuste

Métricas de entrenamiento:

Actualizaciones de políticas: número de actualizaciones de peso que se han realizado correctamente
Tasa de finalización del despliegue: porcentaje de muestras evaluadas correctamente

En cuanto a los patrones:

Las recompensas se estancan (indica un aprendizaje deficiente)
Las recompensas de validación disminuyen mientras que las de entrenamiento aumentan (sobreajuste)
La variación de las recompensas aumenta significativamente con el tiempo (inestabilidad)
Alto porcentaje de errores en las funciones de recompensa (problemas de implementación)

Cuándo dejar de entrenar:

Se alcanzan las métricas de rendimiento objetivo
Las recompensas se estancan y ya no mejoran
El rendimiento de la validación se degrada (se detecta un sobreajuste)
Se alcanza el presupuesto máximo de formación

Guía de hiperparámetros

Utilice los siguientes hiperparámetros recomendados en función de su enfoque de entrenamiento:

General:

Épocas: 1
Tasa de aprendizaje (lr): 1e-7
Número de generaciones: 8
Número máximo de fichas nuevas: 8192
Tamaño del lote: 256

LoRa (adaptación de rango bajo):

Rango LoRa: 32

nota

Ajuste estos valores en función del tamaño de su conjunto de datos y del rendimiento de la validación. Supervisa las métricas de entrenamiento para evitar el sobreajuste.

Evaluación después de la RFT

Una vez finalizada la capacitación, evalúe su modelo ajustado para evaluar las mejoras en el rendimiento:

Ejecute un trabajo de evaluación de la RFT: utilice el punto de control de su formación en RFT como modelo
Compare con la línea base: evalúe tanto el modelo base como el modelo ajustado en el mismo conjunto de pruebas
Analice las métricas: revise las métricas específicas de la tarea (precisión, puntajes de recompensa, etc.)
Realice una revisión cualitativa: inspeccione manualmente los resultados de las muestras para comprobar su calidad

Para conocer los procedimientos de evaluación detallados, consulte la sección Evaluación.

Uso de modelos ajustados

Acceso a los puntos de control:

Una vez finalizada la capacitación, localice su punto de control:

Dirígete a tu output_path S3
Descarga y extrae output.tar.gz
Abra manifest.json.
Copia el checkpoint_s3_bucket valor

Despliegue para la inferencia:

Utilice la ruta S3 del punto de control para realizar inferencias o seguir formándose:


run:
  model_type: amazon.nova-2-lite-v1:0:256k
  model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<job-name>"

Para obtener instrucciones de implementación e inferencia, consulte la sección Inferencia.

Limitaciones y mejores prácticas

Limitaciones actuales:

Restricciones de la beta:

Necesito crear un nuevo grupo RIG para RFT. GA resolverá esta limitación.
No se permiten grupos de instancias que no sean de RIG: asegúrate de que tu HyperPod clúster contenga solo grupos de instancias restringidos (RIGs), no grupos de instancias normales. GA resolverá esta limitación.
Requisitos de tipo de instancia: solo se admiten instancias P5 (mínimo 8 P5.48xLarge). Próximamente: Support para tipos de instancias más pequeños (ETA: mediados de enero de 2025).

Limitaciones funcionales:

Tiempo de espera de Lambda de 15 minutos: las funciones de recompensa deben completarse en 15 minutos
Solo en un turno: no se admiten conversaciones en varios turnos
Conjuntos de datos de validación: no se admiten durante el entrenamiento. Utilice trabajos de evaluación independientes para evaluar el progreso de la formación.

Consideraciones sobre la formación:

Escenarios de baja recompensa: pueden tener problemas cuando menos del 5% de los ejemplos reciben recompensas positivas; opte primero por la SFT
Requisitos de datos: necesita suficiente diversidad para aprender de forma eficaz
Coste computacional: más caro que el ajuste supervisado

Nova Forge elimina algunas de estas limitaciones:

Soporta conversaciones en varios turnos
Permite funciones de recompensa que superen los tiempos de espera de 15 minutos
Proporciona algoritmos avanzados y opciones de ajuste
Diseñado para casos de uso empresarial complejos, ajustado específicamente para crear modelos de vanguardia

Prácticas recomendadas:

Comience con algo pequeño y escale:

Comience con conjuntos de datos mínimos (100 a 200 ejemplos) y pocas épocas de entrenamiento
Valide su enfoque antes de ampliarlo
Aumente gradualmente el tamaño del conjunto de datos y los pasos de entrenamiento en función de los resultados

Base de referencia con SFT primero:

Si los puntajes de recompensa son consistentemente bajos (por ejemplo, siempre 0), realice la SFT antes que la RFT
La RFT requiere un rendimiento de referencia razonable para mejorar de forma eficaz

Diseñe funciones de recompensa eficientes:

Ejecute en segundos, no en minutos
Minimice las llamadas a la API externa
Utilice algoritmos y estructuras de datos eficientes
Implemente un manejo de errores adecuado
Pruébelo minuciosamente antes del entrenamiento
Aproveche las capacidades de escalado paralelo de Lambda

Supervise la formación de forma activa:

Realice un seguimiento del promedio de las puntuaciones de recompensa a lo largo
Observe la distribución de las recompensas entre las muestras
Compare las recompensas de formación con las de validación
Busque patrones preocupantes (mesetas, sobreajuste, inestabilidad)

Repite en función de los resultados:

Si las recompensas no mejoran después de varias iteraciones, ajusta el diseño de la función de recompensa
Aumente la diversidad de los conjuntos de datos para proporcionar señales de aprendizaje más claras
Considere cambiarse a SFT si las recompensas siguen siendo casi nulas
Experimente con diferentes hiperparámetros (tasa de aprendizaje, tamaño del lote)

Optimice la calidad de los datos:

Garantice ejemplos diversos y representativos
Incluya casos extremos y muestras difíciles
Verifique que la función de recompensa puntúe correctamente todos los tipos de ejemplos
Elimine o corrija las muestras que confundan la función de recompensa

Resolución de problemas

Errores en la función de recompensa:

Síntomas: alta tasa de error en las llamadas a la función de recompensa durante el entrenamiento

Problema	Síntomas	Resolución
Tiempo de espera de Lambda	Tiempos de espera frecuentes después de 15 minutos	Optimice el rendimiento de las funciones; considere Nova Forge para evaluaciones complejas
Simultaneidad insuficiente	Errores de regulación Lambda	Aumente lambda_concurrency_limit o solicite un aumento de cuota
Formato de devolución no válido	El entrenamiento falla debido a errores de formato	Compruebe que la estructura de devoluciones coincide con el formato de interfaz requerido
Excepciones no controladas	Errores intermitentes	Añada un sistema integral de gestión y registro de errores
Fallos de la API externa	Puntuación inconsistente	Implemente una lógica de reintentos y estrategias alternativas

Rendimiento de entrenamiento deficiente:

Síntomas: las recompensas no mejoran o se estabilizan a valores bajos

Resoluciones:

Verifique la exactitud de la función de recompensa: pruébela con ejemplos conocidos good/bad
Compruebe el rendimiento de referencia: evalúe el modelo base; si la precisión es cercana a cero, realice primero la SFT
Aumente la diversidad de datos: añada ejemplos más variados que cubran diferentes escenarios
Ajuste los hiperparámetros: pruebe diferentes velocidades de aprendizaje o tamaños de lotes
Revise la calidad de la señal de recompensa: asegúrese de que las recompensas diferencien entre respuestas buenas y malas

Sobreajuste:

Síntomas: las recompensas de entrenamiento aumentan mientras que las de validación disminuyen

Resoluciones:

Reduzca los pasos de capacitación: deje de capacitarse antes
Aumente el tamaño del conjunto de datos: añada más ejemplos de entrenamiento
Añadir regularización: ajustar o weight_decay entropy_coeff
Aumente la diversidad de datos: asegúrese de que el conjunto de capacitación represente una distribución completa

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Funciones de recompensa personalizadas en su entorno AWS

Ajuste