Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Supervisar el entrenamiento con RFT
Supervise las métricas clave durante la formación para garantizar un aprendizaje efectivo e identificar los posibles problemas a tiempo.
Temas
Métricas clave para realizar un seguimiento
Supervisa las siguientes métricas MlFlow durante el entrenamiento:
Métricas de recompensas:
-
Puntuación media de recompensa: calidad general de las respuestas del modelo (debería aumentar con el tiempo)
-
Distribución de recompensas: porcentaje de respuestas que reciben recompensas altas, medias y bajas
-
Recompensas de entrenamiento versus recompensas de validación: compárelas para detectar el sobreajuste
Métricas de entrenamiento:
-
Actualizaciones de políticas: número de actualizaciones de peso que se han realizado correctamente
-
Tasa de finalización del despliegue: porcentaje de muestras evaluadas correctamente
En cuanto a los patrones:
-
Las recompensas se estancan (indica un aprendizaje deficiente)
-
Las recompensas de validación disminuyen mientras que las de entrenamiento aumentan (sobreajuste)
-
La variación de las recompensas aumenta significativamente con el tiempo (inestabilidad)
-
Alto porcentaje de errores en las funciones de recompensa (problemas de implementación)
Cuándo dejar de entrenar:
-
Se alcanzan las métricas de rendimiento objetivo
-
Las recompensas se estancan y ya no mejoran
-
El rendimiento de la validación se degrada (se detecta un sobreajuste)
-
Se alcanza el presupuesto máximo de formación
Guía de hiperparámetros
Utilice los siguientes hiperparámetros recomendados en función de su enfoque de entrenamiento:
General:
-
Épocas: 1
-
Tasa de aprendizaje (lr): 1e-7
-
Número de generaciones: 8
-
Número máximo de fichas nuevas: 8192
-
Tamaño del lote: 256
LoRa (adaptación de rango bajo):
-
Rango LoRa: 32
nota
Ajuste estos valores en función del tamaño de su conjunto de datos y del rendimiento de la validación. Supervisa las métricas de entrenamiento para evitar el sobreajuste.
Evaluación después de la RFT
Una vez finalizada la capacitación, evalúe su modelo ajustado para evaluar las mejoras en el rendimiento:
-
Ejecute un trabajo de evaluación de la RFT: utilice el punto de control de su formación en RFT como modelo
-
Compare con la línea base: evalúe tanto el modelo base como el modelo ajustado en el mismo conjunto de pruebas
-
Analice las métricas: revise las métricas específicas de la tarea (precisión, puntajes de recompensa, etc.)
-
Realice una revisión cualitativa: inspeccione manualmente los resultados de las muestras para comprobar su calidad
Para conocer los procedimientos de evaluación detallados, consulte la sección Evaluación.
Uso de modelos ajustados
Acceso a los puntos de control:
Una vez finalizada la capacitación, localice su punto de control:
-
Dirígete a tu
output_pathS3 -
Descarga y extrae
output.tar.gz -
Abra
manifest.json. -
Copia el
checkpoint_s3_bucketvalor
Despliegue para la inferencia:
Utilice la ruta S3 del punto de control para realizar inferencias o seguir formándose:
run: model_type: amazon.nova-2-lite-v1:0:256k model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<job-name>"
Para obtener instrucciones de implementación e inferencia, consulte la sección Inferencia.
Limitaciones y mejores prácticas
Limitaciones actuales:
Restricciones de la beta:
-
Necesito crear un nuevo grupo RIG para RFT. GA resolverá esta limitación.
-
No se permiten grupos de instancias que no sean de RIG: asegúrate de que tu HyperPod clúster contenga solo grupos de instancias restringidos (RIGs), no grupos de instancias normales. GA resolverá esta limitación.
-
Requisitos de tipo de instancia: solo se admiten instancias P5 (mínimo 8 P5.48xLarge). Próximamente: Support para tipos de instancias más pequeños (ETA: mediados de enero de 2025).
Limitaciones funcionales:
-
Tiempo de espera de Lambda de 15 minutos: las funciones de recompensa deben completarse en 15 minutos
-
Solo en un turno: no se admiten conversaciones en varios turnos
-
Conjuntos de datos de validación: no se admiten durante el entrenamiento. Utilice trabajos de evaluación independientes para evaluar el progreso de la formación.
Consideraciones sobre la formación:
-
Escenarios de baja recompensa: pueden tener problemas cuando menos del 5% de los ejemplos reciben recompensas positivas; opte primero por la SFT
-
Requisitos de datos: necesita suficiente diversidad para aprender de forma eficaz
-
Coste computacional: más caro que el ajuste supervisado
Nova Forge elimina algunas de estas limitaciones:
-
Soporta conversaciones en varios turnos
-
Permite funciones de recompensa que superen los tiempos de espera de 15 minutos
-
Proporciona algoritmos avanzados y opciones de ajuste
-
Diseñado para casos de uso empresarial complejos, ajustado específicamente para crear modelos de vanguardia
Prácticas recomendadas:
Comience con algo pequeño y escale:
-
Comience con conjuntos de datos mínimos (100 a 200 ejemplos) y pocas épocas de entrenamiento
-
Valide su enfoque antes de ampliarlo
-
Aumente gradualmente el tamaño del conjunto de datos y los pasos de entrenamiento en función de los resultados
Base de referencia con SFT primero:
-
Si los puntajes de recompensa son consistentemente bajos (por ejemplo, siempre 0), realice la SFT antes que la RFT
-
La RFT requiere un rendimiento de referencia razonable para mejorar de forma eficaz
Diseñe funciones de recompensa eficientes:
-
Ejecute en segundos, no en minutos
-
Minimice las llamadas a la API externa
-
Utilice algoritmos y estructuras de datos eficientes
-
Implemente un manejo de errores adecuado
-
Pruébelo minuciosamente antes del entrenamiento
-
Aproveche las capacidades de escalado paralelo de Lambda
Supervise la formación de forma activa:
-
Realice un seguimiento del promedio de las puntuaciones de recompensa a lo largo
-
Observe la distribución de las recompensas entre las muestras
-
Compare las recompensas de formación con las de validación
-
Busque patrones preocupantes (mesetas, sobreajuste, inestabilidad)
Repite en función de los resultados:
-
Si las recompensas no mejoran después de varias iteraciones, ajusta el diseño de la función de recompensa
-
Aumente la diversidad de los conjuntos de datos para proporcionar señales de aprendizaje más claras
-
Considere cambiarse a SFT si las recompensas siguen siendo casi nulas
-
Experimente con diferentes hiperparámetros (tasa de aprendizaje, tamaño del lote)
Optimice la calidad de los datos:
-
Garantice ejemplos diversos y representativos
-
Incluya casos extremos y muestras difíciles
-
Verifique que la función de recompensa puntúe correctamente todos los tipos de ejemplos
-
Elimine o corrija las muestras que confundan la función de recompensa
Resolución de problemas
Errores en la función de recompensa:
Síntomas: alta tasa de error en las llamadas a la función de recompensa durante el entrenamiento
Problema |
Síntomas |
Resolución |
|---|---|---|
Tiempo de espera de Lambda |
Tiempos de espera frecuentes después de 15 minutos |
Optimice el rendimiento de las funciones; considere Nova Forge para evaluaciones complejas |
Simultaneidad insuficiente |
Errores de regulación Lambda |
Aumente lambda_concurrency_limit o solicite un aumento de cuota |
Formato de devolución no válido |
El entrenamiento falla debido a errores de formato |
Compruebe que la estructura de devoluciones coincide con el formato de interfaz requerido |
Excepciones no controladas |
Errores intermitentes |
Añada un sistema integral de gestión y registro de errores |
Fallos de la API externa |
Puntuación inconsistente |
Implemente una lógica de reintentos y estrategias alternativas |
Rendimiento de entrenamiento deficiente:
Síntomas: las recompensas no mejoran o se estabilizan a valores bajos
Resoluciones:
-
Verifique la exactitud de la función de recompensa: pruébela con ejemplos conocidos good/bad
-
Compruebe el rendimiento de referencia: evalúe el modelo base; si la precisión es cercana a cero, realice primero la SFT
-
Aumente la diversidad de datos: añada ejemplos más variados que cubran diferentes escenarios
-
Ajuste los hiperparámetros: pruebe diferentes velocidades de aprendizaje o tamaños de lotes
-
Revise la calidad de la señal de recompensa: asegúrese de que las recompensas diferencien entre respuestas buenas y malas
Sobreajuste:
Síntomas: las recompensas de entrenamiento aumentan mientras que las de validación disminuyen
Resoluciones:
-
Reduzca los pasos de capacitación: deje de capacitarse antes
-
Aumente el tamaño del conjunto de datos: añada más ejemplos de entrenamiento
-
Añadir regularización: ajustar o
weight_decayentropy_coeff -
Aumente la diversidad de datos: asegúrese de que el conjunto de capacitación represente una distribución completa