Réglage précis du renforcement (RFT) sur Amazon SageMaker HyperPod

Le réglage fin par renforcement (RFT) est une technique d'apprentissage automatique qui améliore les performances des modèles grâce à des signaux de feedback (scores mesurables ou récompenses indiquant la qualité des réponses) plutôt qu'à une supervision directe avec des réponses exactes. Contrairement au réglage fin supervisé traditionnel qui apprend à partir de paires d'entrées-sorties, le RFT utilise des fonctions de récompense pour évaluer les réponses du modèle et optimise le modèle de manière itérative afin de maximiser ces récompenses.

Cette approche est particulièrement efficace pour les tâches où il est difficile de définir le résultat exact correct, mais vous pouvez mesurer de manière fiable la qualité de réponse. Le RFT permet aux modèles d'apprendre des comportements et des préférences complexes par le biais d'essais et de commentaires, ce qui le rend idéal pour les applications nécessitant une prise de décision nuancée, une résolution créative des problèmes ou le respect de critères de qualité spécifiques pouvant être évalués par programmation.

Quand utiliser le RFT

Utilisez la RFT lorsque vous pouvez définir des critères de réussite clairs et mesurables, mais que vous avez du mal à fournir des résultats exacts pour la formation. Il est idéal pour les tâches où la qualité est subjective ou multidimensionnelle, telles que l'écriture créative, l'optimisation du code ou le raisonnement complexe, pour lesquelles plusieurs solutions valides existent, mais certaines sont clairement meilleures que d'autres.

RFT fonctionne mieux lorsque vous disposez des éléments suivants :

Une fonction de récompense fiable qui peut évaluer les résultats du modèle de manière programmatique
Nécessité d'aligner le comportement du modèle sur des préférences ou des contraintes spécifiques
Situations dans lesquelles le réglage minutieux supervisé traditionnel ne suffit pas parce que la collecte d'exemples étiquetés de haute qualité est coûteuse ou peu pratique

Envisagez le RFT pour les applications nécessitant une amélioration itérative, une personnalisation ou le respect de règles métier complexes pouvant être codées sous forme de signaux de récompense.

À quoi convient le mieux le RFT

La RFT excelle dans les domaines où la qualité de sortie peut être mesurée objectivement, mais où les réponses optimales sont difficiles à définir dès le départ :

Résolution de problèmes mathématiques : exactitude vérifiable avec plusieurs voies de résolution
Génération et optimisation du code : résultats d'exécution et indicateurs de performance testables
Tâches de raisonnement scientifique : cohérence logique et exactitude factuelle
Analyse de données structurées : résultats vérifiables par programmation
Raisonnement en plusieurs étapes : tâches nécessitant une progression step-by-step logique
Utilisation des outils et appels d'API : succès mesurable par les résultats d'exécution
Flux de travail complexes : respect de contraintes et de règles commerciales spécifiques

La RFT fonctionne exceptionnellement bien lorsque vous devez équilibrer plusieurs objectifs concurrents tels que la précision, l'efficacité et le style.

Quand utiliser le mode raisonnement pour l'entraînement RFT

Amazon Nova 2.0 prend en charge le mode raisonnement pendant l'entraînement RFT. Les modes suivants sont disponibles :

none : aucun raisonnement (omettez le champ reasoning_effort)
faible : surcharge de raisonnement minimale
high : capacité de raisonnement maximale (par défaut lorsque reasoning_effort est spécifié)

Note

Il n'existe pas d'option moyenne pour le RFT. Si le champ reasoning_effort est absent de votre configuration, le raisonnement est désactivé.

Utilisez un raisonnement raisonné pour ce qui suit :

Tâches analytiques complexes
Résolution de problèmes mathématiques
Déduction logique en plusieurs étapes
Tâches où la step-by-step réflexion apporte une valeur ajoutée

Utilisez un raisonnement nul (omettez reasoning_effort) ou un raisonnement bas pour ce qui suit :

Des requêtes factuelles simples
Classifications directes
Optimisation de la vitesse et des coûts
Réponse simple aux questions

Important

Les modes de raisonnement avancés augmentent le temps et les coûts de formation, la latence et le coût des inférences, mais augmentent également la capacité du modèle à effectuer des tâches de raisonnement complexes.

Modèles pris en charge

RFT activé est SageMaker HyperPod compatible avec Amazon Nova Lite 2.0 (amazon.nova-2-lite-v 1:0:256 k).

Étapes majeures

Le processus RFT comprend quatre phases clés :

Implémentation d'un évaluateur : créez une fonction de récompense pour évaluer de manière programmatique les réponses du modèle en fonction de vos critères de qualité.
Instructions de téléchargement : préparez et téléchargez les données d'entraînement dans le format conversationnel spécifié avec des données de référence à des fins d'évaluation.
Démarrage d'une tâche : lancez le processus de réglage précis du renforcement avec les paramètres que vous avez configurés.
Surveillance : suivez les progrès de la formation à l'aide de tableaux de bord de mesures pour garantir que le modèle apprend efficacement.

Chaque étape s'appuie sur la précédente, l'évaluateur servant de base qui guide l'ensemble du processus de formation en fournissant des signaux de feedback cohérents.

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

SFT sur Nova 2.0

RFT sur Nova 2.0