Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Réglage précis du renforcement (RFT) sur Amazon SageMaker HyperPod
Le réglage fin par renforcement (RFT) est une technique d'apprentissage automatique qui améliore les performances des modèles grâce à des signaux de feedback (scores mesurables ou récompenses indiquant la qualité des réponses) plutôt qu'à une supervision directe avec des réponses exactes. Contrairement au réglage fin supervisé traditionnel qui apprend à partir de paires d'entrées-sorties, le RFT utilise des fonctions de récompense pour évaluer les réponses du modèle et optimise le modèle de manière itérative afin de maximiser ces récompenses.
Cette approche est particulièrement efficace pour les tâches où il est difficile de définir le résultat exact correct, mais vous pouvez mesurer de manière fiable la qualité de réponse. Le RFT permet aux modèles d'apprendre des comportements et des préférences complexes par le biais d'essais et de commentaires, ce qui le rend idéal pour les applications nécessitant une prise de décision nuancée, une résolution créative des problèmes ou le respect de critères de qualité spécifiques pouvant être évalués par programmation.
Quand utiliser le RFT
Utilisez la RFT lorsque vous pouvez définir des critères de réussite clairs et mesurables, mais que vous avez du mal à fournir des résultats exacts pour la formation. Il est idéal pour les tâches où la qualité est subjective ou multidimensionnelle, telles que l'écriture créative, l'optimisation du code ou le raisonnement complexe, pour lesquelles plusieurs solutions valides existent, mais certaines sont clairement meilleures que d'autres.
RFT fonctionne mieux lorsque vous disposez des éléments suivants :
-
Une fonction de récompense fiable qui peut évaluer les résultats du modèle de manière programmatique
-
Nécessité d'aligner le comportement du modèle sur des préférences ou des contraintes spécifiques
-
Situations dans lesquelles le réglage minutieux supervisé traditionnel ne suffit pas parce que la collecte d'exemples étiquetés de haute qualité est coûteuse ou peu pratique
Envisagez le RFT pour les applications nécessitant une amélioration itérative, une personnalisation ou le respect de règles métier complexes pouvant être codées sous forme de signaux de récompense.
À quoi convient le mieux le RFT
La RFT excelle dans les domaines où la qualité de sortie peut être mesurée objectivement, mais où les réponses optimales sont difficiles à définir dès le départ :
-
Résolution de problèmes mathématiques : exactitude vérifiable avec plusieurs voies de résolution
-
Génération et optimisation du code : résultats d'exécution et indicateurs de performance testables
-
Tâches de raisonnement scientifique : cohérence logique et exactitude factuelle
-
Analyse de données structurées : résultats vérifiables par programmation
-
Raisonnement en plusieurs étapes : tâches nécessitant une progression step-by-step logique
-
Utilisation des outils et appels d'API : succès mesurable par les résultats d'exécution
-
Flux de travail complexes : respect de contraintes et de règles commerciales spécifiques
La RFT fonctionne exceptionnellement bien lorsque vous devez équilibrer plusieurs objectifs concurrents tels que la précision, l'efficacité et le style.
Quand utiliser le mode raisonnement pour l'entraînement RFT
Amazon Nova 2.0 prend en charge le mode raisonnement pendant l'entraînement RFT. Les modes suivants sont disponibles :
-
none : aucun raisonnement (omettez le champ reasoning_effort)
-
faible : surcharge de raisonnement minimale
-
high : capacité de raisonnement maximale (par défaut lorsque reasoning_effort est spécifié)
Note
Il n'existe pas d'option moyenne pour le RFT. Si le champ reasoning_effort est absent de votre configuration, le raisonnement est désactivé.
Utilisez un raisonnement raisonné pour ce qui suit :
-
Tâches analytiques complexes
-
Résolution de problèmes mathématiques
-
Déduction logique en plusieurs étapes
-
Tâches où la step-by-step réflexion apporte une valeur ajoutée
Utilisez un raisonnement nul (omettez reasoning_effort) ou un raisonnement bas pour ce qui suit :
-
Des requêtes factuelles simples
-
Classifications directes
-
Optimisation de la vitesse et des coûts
-
Réponse simple aux questions
Important
Les modes de raisonnement avancés augmentent le temps et les coûts de formation, la latence et le coût des inférences, mais augmentent également la capacité du modèle à effectuer des tâches de raisonnement complexes.
Modèles pris en charge
RFT activé est SageMaker HyperPod compatible avec Amazon Nova Lite 2.0 (amazon.nova-2-lite-v 1:0:256 k).
Étapes majeures
Le processus RFT comprend quatre phases clés :
-
Implémentation d'un évaluateur : créez une fonction de récompense pour évaluer de manière programmatique les réponses du modèle en fonction de vos critères de qualité.
-
Instructions de téléchargement : préparez et téléchargez les données d'entraînement dans le format conversationnel spécifié avec des données de référence à des fins d'évaluation.
-
Démarrage d'une tâche : lancez le processus de réglage précis du renforcement avec les paramètres que vous avez configurés.
-
Surveillance : suivez les progrès de la formation à l'aide de tableaux de bord de mesures pour garantir que le modèle apprend efficacement.
Chaque étape s'appuie sur la précédente, l'évaluateur servant de base qui guide l'ensemble du processus de formation en fournissant des signaux de feedback cohérents.