Indicateurs clés à suivre Guidage des hyperparamètres Évaluation après RFT Utilisation de modèles affinés Limites et meilleures pratiques Résolution des problèmes

Surveillance de la formation RFT

Surveillez les indicateurs clés pendant la formation pour garantir un apprentissage efficace et identifier rapidement les problèmes potentiels.

Indicateurs clés à suivre

Surveillez les indicateurs suivants à l'aide de ces indicateurs MlFlow pendant l'entraînement :

Indicateurs de récompenses :

Note de récompense moyenne : qualité globale des réponses du modèle (devrait augmenter au fil du temps)
Distribution des récompenses : pourcentage de réponses recevant des récompenses élevées, moyennes et faibles
Récompenses liées à la formation ou à la validation : comparez pour détecter le surajustement

Indicateurs de formation :

Mises à jour des politiques : nombre de mises à jour du poids réussies
Taux d'achèvement du déploiement : pourcentage d'échantillons évalués avec succès

En ce qui concerne les motifs :

Plafond des récompenses (indique un mauvais apprentissage)
Les récompenses de validation diminuent tandis que les récompenses d'entraînement augmentent (surajustement)
La variance des récompenses augmente de manière significative au fil du temps (instabilité)
Pourcentage élevé d'erreurs liées à la fonction de récompense (problèmes de mise en œuvre)

Quand arrêter l'entraînement :

Les indicateurs de performance cibles sont atteints
Les récompenses plafonnent et ne s'améliorent plus
Les performances de validation se dégradent (surajustement détecté)
Le budget de formation maximal est atteint

Guidage des hyperparamètres

Utilisez les hyperparamètres recommandés suivants en fonction de votre approche d'entraînement :

Généralités :

Époques : 1
Taux d'apprentissage (lr) : 1e-7
Nombre de générations : 8
Nombre maximum de nouveaux jetons : 8192
Taille du lot : 256

LoRa (adaptation de bas rang) :

Rang LoRa : 32

Note

Ajustez ces valeurs en fonction de la taille de votre jeu de données et des performances de validation. Surveillez les indicateurs d'entraînement pour éviter le surajustement.

Évaluation après RFT

Une fois la formation terminée, évaluez votre modèle affiné pour évaluer les améliorations de performance :

Exécuter une tâche d'évaluation RFT : utilisez le point de contrôle de votre formation RFT comme modèle
Comparaison à la base de référence : évaluez à la fois le modèle de base et le modèle affiné sur le même ensemble de test
Analyser les indicateurs : passez en revue les indicateurs spécifiques aux tâches (précision, scores de récompense, etc.)
Réaliser un examen qualitatif : inspecter manuellement la qualité des échantillons de sortie

Pour les procédures d'évaluation détaillées, consultez la section Évaluation.

Utilisation de modèles affinés

Accès aux points de contrôle :

Une fois la formation terminée, localisez votre point de contrôle :

Accédez à votre output_path dans S3
Téléchargez et extrayez output.tar.gz
Ouvrez manifest.json.
Copiez la checkpoint_s3_bucket valeur

Déploiement à des fins d'inférence :

Utilisez le chemin du point de contrôle S3 à des fins d'inférence ou de formation continue :


run:
  model_type: amazon.nova-2-lite-v1:0:256k
  model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<job-name>"

Pour les instructions de déploiement et d'inférence, reportez-vous à la section Inférence.

Limites et meilleures pratiques

Limitations actuelles :

Restrictions relatives aux versions bêta

Besoin de créer un nouveau groupe RIG pour RFT. Cette limitation sera résolue par GA.
Les groupes d'instances non Rig ne sont pas autorisés : assurez-vous que votre HyperPod cluster ne contient que des groupes d'instances restreints (RIGs), pas de groupes d'instances réguliers. Cette limitation sera résolue par GA.
Exigences relatives au type d'instance : seules les instances P5 sont prises en charge (minimum 8 instances P5.48xLarge). Prochainement : Support pour les types d'instances plus petits (ETA : mi-janvier 2025).

Limites fonctionnelles :

Délai Lambda de 15 minutes : les fonctions de récompense doivent être terminées dans les 15 minutes
Un tour uniquement : les conversations à plusieurs tours ne sont pas prises en charge
Ensembles de données de validation : non pris en charge pendant l'entraînement. Utilisez des tâches d'évaluation distinctes pour évaluer les progrès de la formation.

Considérations relatives à la formation :

Scénarios à faibles récompenses : cela peut être difficile lorsque moins de 5 % des exemples reçoivent des récompenses positives. Pensez d'abord à SFT
Exigences en matière de données : nécessite une diversité suffisante pour apprendre efficacement
Coût de calcul : plus coûteux que le réglage fin supervisé

Nova Forge supprime certaines de ces limitations :

Prend en charge les conversations à plusieurs tours
Permet aux fonctions de récompense de plus de 15 minutes
Fournit des algorithmes avancés et des options de réglage
Conçu pour les cas d'utilisation complexes en entreprise, spécialement conçu pour créer des modèles avant-gardistes

Bonnes pratiques :

Commencez petit et agrandissez :

Commencez avec un minimum d'ensembles de données (100 à 200 exemples) et peu d'époques d'entraînement
Validez votre approche avant de la mettre à l'échelle
Augmentez progressivement la taille de l'ensemble de données et les étapes d'entraînement en fonction des résultats

Base de référence avec SFT d'abord :

Si les scores de récompense sont constamment faibles (par exemple, toujours 0), effectuez SFT avant RFT
La RFT nécessite des performances de base raisonnables pour s'améliorer efficacement

Concevez des fonctions de récompense efficaces :

Exécuter en quelques secondes, et non en quelques minutes
Minimiser les appels d'API externes
Utiliser des algorithmes et des structures de données efficaces
Mettre en œuvre une gestion appropriée des erreurs
Faites des tests approfondis avant l'entraînement
Tirez parti des fonctionnalités de mise à l'échelle parallèle de Lambda

Surveillez activement la formation :

Suivez les scores de récompense moyens au fil du temps
Regardez la distribution des récompenses entre les échantillons
Comparez les récompenses de formation aux récompenses de validation
Recherchez les tendances inquiétantes (plateaux, surajustement, instabilité)

Itérer en fonction des résultats :

Si les récompenses ne s'améliorent pas après plusieurs itérations, ajustez le design de la fonction de récompense
Augmenter la diversité des ensembles de données pour fournir des signaux d'apprentissage plus clairs
Envisagez de passer à SFT si les récompenses restent proches de zéro
Expérimentez avec différents hyperparamètres (taux d'apprentissage, taille du lot)

Optimisez la qualité des données :

Garantir la diversité et la représentativité des exemples
Incluez des étuis de pointe et des échantillons difficiles
Vérifier que la fonction de récompense note correctement tous les types d'exemples
Supprimez ou corrigez les échantillons qui perturbent la fonction de récompense

Résolution des problèmes

Erreurs liées à la fonction de récompense :

Symptômes : taux d'erreur élevé lors des appels à la fonction de récompense pendant l'entraînement

Problème	Symptômes	Résolution
délai d’expiration Lambda	Interruptions fréquentes après 15 minutes	Optimisez les performances des fonctions ; considérez Nova Forge pour les évaluations complexes
Simultanéité insuffisante	Erreurs de régulation Lambda	Augmenter lambda_concurrency_limit ou demander une augmentation du quota
Format de retour non valide	L'entraînement échoue en raison d'erreurs de format	Vérifiez que la structure de retour correspond au format d'interface requis
Exceptions non gérées	Erreurs intermittentes	Ajoutez une gestion et une journalisation complètes des erreurs
Défaillances d'API externes	Notation incohérente	Mettre en œuvre une logique de nouvelle tentative et des stratégies de repli

Mauvaises performances d'entraînement :

Symptômes : les récompenses ne s'améliorent pas ou plafonnent à de faibles valeurs

Résolutions :

Vérifiez l'exactitude de la fonction de récompense : testez avec des exemples connus good/bad
Vérifiez les performances de référence : évaluez le modèle de base ; si la précision est proche de zéro, effectuez d'abord le SFT
Améliorez la diversité des données : ajoutez des exemples plus variés couvrant différents scénarios
Ajustez les hyperparamètres : essayez différents taux d'apprentissage ou différentes tailles de lots
Vérifiez la qualité du signal de récompense : assurez-vous que les récompenses font la différence entre les bonnes et les mauvaises réponses

Surajustement :

Symptômes : les récompenses d'entraînement augmentent tandis que les récompenses de validation diminuent

Résolutions :

Réduisez le nombre d'étapes d'entraînement : arrêtez l'entraînement plus tôt
Augmenter la taille du jeu de données : ajouter d'autres exemples de formation
Ajouter une régularisation : ajuster ou weight_decay entropy_coeff
Améliorez la diversité des données : assurez-vous que le kit de formation représente une distribution complète

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Fonctions de récompense personnalisées dans votre AWS environnement

Peaufinage