Évaluation du modèle de raisonnement - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Évaluation du modèle de raisonnement

Présentation de

La prise en charge des modèles de raisonnement permet une évaluation à l'aide de modèles Nova capables de raisonner qui effectuent un raisonnement interne explicite avant de générer des réponses finales. Cette fonctionnalité utilise le contrôle au niveau de l'API via le reasoning_effort paramètre pour activer ou désactiver dynamiquement la fonctionnalité de raisonnement, améliorant potentiellement la qualité des réponses pour les tâches analytiques complexes.

Modèles pris en charge

  • amazon.nova-2-lite-v 1:0:256 k

Configuration de la recette

Activez le raisonnement en ajoutant le reasoning_effort paramètre à la inference section de votre recette :

run: name: reasoning-eval-job-name # [MODIFIABLE] Unique identifier for your evaluation job model_type: amazon.nova-2-lite-v1:0:256k # [FIXED] Must be a reasoning-supported model model_name_or_path: nova-lite-2/prod # [FIXED] Path to model checkpoint or identifier replicas: 1 # [MODIFIABLE] Number of replicas for SageMaker Training job data_s3_path: "" # [MODIFIABLE] Leave empty for SageMaker Training job; optional for SageMaker HyperPod job output_s3_path: "" # [MODIFIABLE] Output path for SageMaker HyperPod job (not compatible with SageMaker Training jobs) evaluation: task: mmlu # [MODIFIABLE] Evaluation task strategy: zs_cot # [MODIFIABLE] Evaluation strategy metric: accuracy # [MODIFIABLE] Metric calculation method inference: reasoning_effort: high # [MODIFIABLE] Enables reasoning mode; options: low/high or null to disable max_new_tokens: 32768 # [MODIFIABLE] Maximum tokens to generate, recommended value when reasoning_effort set to high top_k: -1 # [MODIFIABLE] Top-k sampling parameter top_p: 1.0 # [MODIFIABLE] Nucleus sampling parameter temperature: 0 # [MODIFIABLE] Sampling temperature (0 = deterministic)

Utilisation du paramètre reasoning_effort

Le reasoning_effort paramètre contrôle le comportement de raisonnement des modèles capables de raisonner.

Conditions préalables

  • Compatibilité des modèles : définie reasoning_effort uniquement lorsqu'model_typeun modèle capable de raisonner est spécifié (actuellement) amazon.nova-2-lite-v1:0:256k

  • Gestion des erreurs — L'utilisation reasoning_effort avec des modèles non pris en charge échouera avec ConfigValidationError: "Reasoning mode is enabled but model '{model_type}' does not support reasoning. Please use a reasoning-capable model or disable reasoning mode."

Options disponibles

Option Comportement Limite de jetons Cas d’utilisation
null (par défaut) Désactive le mode raisonnement N/A Évaluation standard sans frais de raisonnement
bas Permet de raisonner avec des contraintes 4 000 jetons pour le raisonnement interne Scénarios nécessitant un raisonnement concis ; optimisations en termes de rapidité et de coût
haut Permet de raisonner sans contraintes Aucune limite symbolique au raisonnement interne Problèmes complexes nécessitant une analyse et un step-by-step raisonnement approfondis
Méthode d’entraînement Options disponibles Comment configurer
SFT (réglage fin supervisé) Élevé ou désactivé uniquement Utilisez reasoning_enabled : true (high) ou reasoning_enabled : false (off)
RFT (réglage fin du renforcement) Faible, haut ou éteint Utilisez reasoning_effort : low ou reasoning_effort : high. Omettez le champ à désactiver.
Évaluation Faible, haut ou éteint Utilisez reasoning_effort : low ou reasoning_effort : high. Utilisez null pour désactiver.

Quand activer le raisonnement

Utiliser le mode raisonnement (lowouhigh) pour

  • Tâches complexes de résolution de problèmes (mathématiques, énigmes logiques, codage)

  • Questions analytiques en plusieurs étapes nécessitant un raisonnement intermédiaire

  • Tâches pour lesquelles des explications ou des step-by-step réflexions détaillées améliorent la précision

  • Scénarios dans lesquels la qualité de réponse est privilégiée par rapport à la vitesse

Utiliser le mode non raisonné (nullou omettre un paramètre) pour

  • Questions et réponses simples ou questions factuelles

  • Tâches d'écriture créative

  • Lorsque des temps de réponse plus rapides sont essentiels

  • Analyse comparative des performances où les frais de raisonnement doivent être exclus

  • Optimisation des coûts lorsque le raisonnement n'améliore pas les performances des tâches

Résolution des problèmes

Erreur : « Le mode raisonnement est activé mais le modèle ne prend pas en charge le raisonnement »

Cause : le reasoning_effort paramètre est défini sur une valeur non nulle, mais la valeur spécifiée model_type ne permet pas de raisonner.

Résolution :

  • Vérifiez que le type de votre modèle est amazon.nova-2-lite-v1:0:256k

  • Si vous utilisez un modèle différent, passez à un modèle capable de raisonner ou supprimez le reasoning_effort paramètre de votre recette