Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Personnalisation d'Amazon Nova pour les tâches SageMaker de formation
Amazon SageMaker Training Jobs est un environnement qui vous permet de former des modèles de machine learning à grande échelle. Il provisionne et met à l’échelle automatiquement les ressources de calcul, charge les données d’entraînement provenant de sources telles qu’Amazon S3, exécute votre code d’entraînement et stocke les artefacts du modèle qui en résultent.
L’objectif de l’entraînement est de personnaliser le modèle de base Amazon Nova à l’aide de vos données exclusives. Le processus de formation comprend généralement des étapes visant à préparer vos données, à choisir une recette, à modifier les paramètres de configuration dans les fichiers YAML et à soumettre une tâche de formation. Le processus d’entraînement produira un point de contrôle du modèle entraîné dans un compartiment Amazon S3 géré par service. Vous pouvez utiliser cet emplacement de point de contrôle pour les tâches d’entraînement. La personnalisation Nova pour les tâches de SageMaker formation stocke les artefacts du modèle dans un compartiment Amazon S3 géré par des services. Les artefacts du compartiment géré par les services sont chiffrés à l'aide de clés KMS SageMaker gérées par des services. Les compartiments Amazon S3 gérés par service ne prennent actuellement pas en charge le chiffrement des données à l’aide de clés KMS gérées par le client.
Présentation de
Cette section fournit un aperçu des techniques de personnalisation et vous aide à choisir l'approche la mieux adaptée à vos besoins et aux données disponibles.
Deux étapes de la formation LLM
La formation aux modèles linguistiques de grande envergure comprend deux étapes principales : la pré-formation et la post-formation. Au cours de la pré-formation, le modèle traite les jetons de texte brut et les optimise pour la prédiction du jeton suivant. Ce processus crée un compléteur de modèles qui absorbe la syntaxe, la sémantique, les faits et les modèles de raisonnement du Web et du texte organisé. Cependant, le modèle préformé ne comprend pas les instructions, les objectifs de l'utilisateur ou le comportement adapté au contexte. Il poursuit le texte dans le style qui convient à sa distribution de formation. Un modèle préentraîné se complète automatiquement au lieu de suivre les instructions, produit un formatage incohérent et peut refléter des biais indésirables ou du contenu dangereux des données d'entraînement. La formation préalable renforce les compétences générales et non l'utilité des tâches.
La post-formation transforme le compléteur de modèles en un assistant utile. Vous exécutez plusieurs cycles de réglage fin supervisé (SFT) pour apprendre au modèle à suivre les instructions, à respecter les schémas et les politiques, à appeler des outils et à produire des résultats fiables en imitant des démonstrations de haute qualité. Cet alignement apprend au modèle à répondre aux demandes sous forme de tâches plutôt que sous forme de texte pour continuer. Vous appliquez ensuite le réglage fin du renforcement (RFT) pour optimiser le comportement à l'aide de commentaires mesurables (tels que des vérificateurs ou un LLM-as-a-judge), en équilibrant des compromis tels que la précision par rapport à la brièveté, la sécurité par rapport à la couverture, ou un raisonnement en plusieurs étapes soumis à des contraintes. Dans la pratique, vous alternez SFT et RFT par cycles pour transformer le modèle préentraîné en un système fiable, aligné sur les politiques, qui exécute des tâches complexes de manière cohérente.
Choisissez la bonne approche de personnalisation
Dans cette section, nous aborderons les stratégies de personnalisation après la formation : RFT et SFT.
Réglage précis du renforcement (RFT)
Le réglage précis du renforcement améliore les performances du modèle grâce à des signaux de feedback (scores mesurables ou récompenses indiquant la qualité des réponses) plutôt qu'à une supervision directe avec des réponses exactes et correctes. Contrairement au réglage fin supervisé traditionnel qui apprend à partir de paires d'entrées-sorties, le RFT utilise des fonctions de récompense pour évaluer les réponses du modèle et optimise le modèle de manière itérative afin de maximiser ces récompenses. Cette approche fonctionne bien pour les tâches où il est difficile de définir le résultat exact correct, mais vous pouvez mesurer de manière fiable la qualité de réponse. Le RFT permet aux modèles d'apprendre des comportements et des préférences complexes par le biais d'essais et de commentaires, ce qui le rend idéal pour les applications qui nécessitent une prise de décision nuancée, une résolution créative des problèmes ou le respect de critères de qualité spécifiques que vous pouvez évaluer par programmation. Par exemple, répondre à des questions juridiques complexes est un cas d'utilisation idéal pour la RFT, car vous souhaitez apprendre au modèle à mieux raisonner pour répondre aux questions avec plus de précision.
Comment ça marche
Pour peaufiner le renforcement, vous partez d'une base de référence adaptée aux instructions et vous traitez chaque invite comme un petit tournoi. Pour une entrée donnée, vous échantillonnez une poignée de réponses candidates à partir du modèle, vous notez chacune d'entre elles avec la fonction de récompense, puis vous les classez dans ce groupe. L'étape de mise à jour incite le modèle à augmenter la probabilité que les candidats ayant obtenu les meilleurs scores soient plus susceptibles de se présenter la prochaine fois et à ceux qui obtiennent les moins bons résultats, tandis qu'une stay-close-to-baseline contrainte empêche le comportement de dériver, de devenir verbeux ou abusif. Vous répétez cette boucle en suivant de nombreuses instructions, en actualisant les dossiers complexes, en resserrant les vérificateurs ou en évaluant les rubriques lorsque vous constatez des exploits, et vous suivez en permanence les indicateurs des tâches.
Quand utiliser le RFT
Les tâches qui bénéficient le plus de la RFT partagent plusieurs caractéristiques. Ils ont des signaux de réussite mesurables même lorsqu'il est difficile de spécifier un seul résultat correct. Ils admettent un crédit partiel ou une note de qualité, ce qui vous permet de classer les meilleures réponses par rapport aux mauvaises réponses en un clin d'œil ou en utilisant une fonction de récompense. Ils impliquent de multiples objectifs qui doivent être équilibrés (tels que la précision et la brièveté, la clarté, la sécurité ou le coût). Ils nécessitent le respect de contraintes explicites que vous pouvez vérifier par programmation. Ils fonctionnent dans des environnements médiés par des outils ou basés sur un environnement où les résultats sont observables (succès ou échec, latence, utilisation des ressources). Ils se produisent dans des régimes peu étiquetés où la collecte de cibles aurifères coûte cher, mais où les commentaires automatisés ou basés sur des rubriques sont nombreux. La RFT fonctionne mieux lorsque vous pouvez transformer la qualité en un scalaire ou un classement fiables et que vous souhaitez que le modèle amplifie de manière préférentielle les comportements les plus performants sans avoir besoin de cibles étiquetées exhaustives.
Envisagez d'autres méthodes lorsque :
-
Vous avez des paires d'entrées-sorties étiquetées nombreuses et fiables — Utilisez SFT
-
La principale lacune concerne les connaissances ou le jargon. Utilisez la génération augmentée par extraction (RAG)
-
Votre signal de récompense est bruyant ou peu fiable et vous ne pouvez pas le corriger avec de meilleures rubriques ou de meilleures cases. Stabilisez-le d'abord avant RFT
Quand ne pas utiliser le RFT
Évitez le RFT dans les situations suivantes :
-
Vous pouvez produire à moindre coût des paires d'entrées-sorties étiquetées fiables (le SFT est plus simple, moins cher et plus stable)
-
L'écart réside dans les connaissances ou le jargon plutôt que dans le comportement (utilisez RAG)
-
Votre signal de récompense est bruyant, faible, facile à jouer, coûteux ou lent à calculer (corrigez d'abord l'évaluateur)
-
Les performances de base sont proches de zéro (amorcez avec SFT avant d'optimiser les préférences)
-
La tâche comporte des schémas déterministes, un formatage strict ou une seule réponse correcte (la validation SFT ou basée sur des règles fonctionne mieux)
-
Les budgets serrés en termes de latence ou de coûts ne peuvent pas absorber le surcroît d'échantillonnage ou d'exploration requis par le RFT
-
Les contraintes de sécurité ou de politique ne sont pas clairement spécifiées et applicables dans la récompense
Si vous pouvez indiquer « la bonne réponse », utilisez SFT. Si vous avez besoin de nouvelles connaissances, utilisez RAG. N'utilisez RFT qu'après avoir une base de référence solide et une fonction de hard-to-exploit récompense robuste et rapide.
Peaufinage supervisé (SFT)
Le réglage fin supervisé entraîne le LLM sur un ensemble de données de paires d'entrées-sorties étiquetées par l'homme pour votre tâche. Vous fournissez des exemples de demandes (questions, instructions, etc.) avec les réponses correctes ou souhaitées, et vous poursuivez la formation du modèle sur ces exemples. Le modèle ajuste ses pondérations pour minimiser les pertes supervisées (généralement une entropie croisée entre ses prédictions et les jetons de sortie cibles). Il s'agit de la même formation que celle utilisée dans la plupart des tâches d'apprentissage automatique supervisées, appliquée pour spécialiser un LLM.
SFT modifie le comportement, pas les connaissances. Il n'enseigne pas au modèle de nouveaux faits ou un jargon qu'il n'avait pas découverts lors de la pré-formation. Il enseigne au modèle comment répondre, et non ce qu'il doit savoir. Si vous avez besoin de nouvelles connaissances du domaine (telles que la terminologie interne), utilisez la génération augmentée par extraction (RAG) pour fournir ce contexte au moment de l'inférence. SFT ajoute ensuite le comportement de suivi des instructions souhaité en haut.
Comment ça marche
SFT optimise le LLM en minimisant la perte moyenne d'entropie croisée sur les jetons de réponse, en traitant les jetons prompts comme contexte et en les masquant de la perte. Le modèle internalise le style, la structure et les règles de décision de votre cible, en apprenant à générer la saisie correcte pour chaque invite. Par exemple, pour classer les documents dans des catégories personnalisées, vous affinez le modèle à l'aide d'instructions (le texte du document) et de compléments étiquetés (les étiquettes de catégorie). Vous vous entraînez sur ces paires jusqu'à ce que le modèle affiche la bonne étiquette pour chaque invite avec une probabilité élevée.
Vous pouvez exécuter le SFT avec seulement quelques centaines d'exemples et passer à quelques centaines de milliers. Les échantillons SFT doivent être de haute qualité et directement alignés sur le comportement du modèle souhaité.
Quand utiliser SFT
Utilisez SFT lorsque vous avez une tâche bien définie avec des résultats clairement définis. Si vous pouvez indiquer explicitement « Étant donné une entrée X, la sortie correcte est Y » et recueillir des exemples de tels mappages, le réglage fin supervisé est un bon choix. SFT excelle dans les scénarios suivants :
-
Tâches de classification structurées ou complexes — Classez les documents internes ou les contrats dans de nombreuses catégories personnalisées. Avec SFT, le modèle apprend ces catégories spécifiques mieux que de le demander uniquement.
-
Tâches de réponse à des questions ou de transformation avec des réponses connues : affinez un modèle pour répondre aux questions de la base de connaissances d'une entreprise, ou convertissez les données entre des formats dans lesquels chaque entrée contient une réponse correcte.
-
Mise en forme et cohérence du style — Entraînez le modèle à toujours répondre dans un certain format ou dans un certain ton en peaufinant sur des exemples de format ou de ton corrects. Par exemple, une formation sur des paires prompte-réponse illustrant la voix d'une marque particulière apprend au modèle à générer des résultats dans ce style. Le comportement suivant les instructions est souvent initialement enseigné par le biais de SFT sur des exemples sélectionnés de bons comportements d'assistant.
SFT est le moyen le plus direct d'enseigner à un LLM une nouvelle compétence ou un nouveau comportement lorsque vous pouvez spécifier à quoi ressemble le bon comportement. Il utilise la compréhension linguistique existante du modèle et le concentre sur votre tâche. Utilisez SFT lorsque vous souhaitez que le modèle fasse une chose spécifique et que vous avez ou pouvez créer un jeu de données d'exemples.
Utilisez SFT lorsque vous pouvez assembler des paires d'invite et de réponse de haute qualité qui reflètent fidèlement le comportement souhaité. Il convient aux tâches comportant des cibles claires ou des formats déterministes tels que les schémas, les appels de fonctions ou d'outils, et aux réponses structurées pour lesquelles l'imitation est un signal d'apprentissage approprié. L'objectif est de façonner le comportement : apprendre au modèle à traiter les instructions comme des tâches, à suivre les instructions, à adopter un ton et des politiques de refus, et à produire un formatage cohérent. Planifiez au moins des centaines de démonstrations, la qualité des données, la cohérence et la déduplication étant plus importantes que le volume brut. Pour une mise à jour simple et rentable, utilisez des méthodes économes en paramètres, telles que l'adaptation de bas niveau, pour entraîner de petits adaptateurs sans toucher à la majeure partie de la colonne vertébrale.
Quand ne pas utiliser SFT
N'utilisez pas SFT lorsque l'écart est lié aux connaissances plutôt qu'au comportement. Il n'enseigne pas au modèle de nouveaux faits, de jargon ou d'événements récents. Dans ces cas, utilisez la génération augmentée par extraction pour intégrer des connaissances externes lors de l'inférence. Évitez le SFT lorsque vous pouvez mesurer la qualité mais que vous ne pouvez pas étiqueter une seule bonne réponse. Utilisez le renforcement pour affiner les récompenses avec des récompenses vérifiables ou LLM-as-a-judge pour optimiser directement ces récompenses. Si vos besoins ou votre contenu changent fréquemment, misez sur la récupération et l'utilisation des outils plutôt que sur le perfectionnement du modèle.