Compréhension des paramètres de la formule

Configuration d’exécution

Vous trouverez ci-dessous une configuration d’exécution générale et une explication des paramètres impliqués.


run:
  name: eval_job_name 
  model_type: amazon.nova-micro-v1:0:128k 
  model_name_or_path: nova-micro/prod 
  replicas: 1 
  data_s3_path: ""
  output_s3_path: s3://output_path
  mlflow_tracking_uri: "" 
  mlflow_experiment_name : "" 
  mlflow_run_name : ""

name : nom descriptif de votre tâche d’évaluation (obligatoire). Cela permet d'identifier votre tâche dans la AWS console.
model_type : spécifie la variante du modèle Amazon Nova à utiliser (obligatoire). Ne modifiez pas ce champ manuellement. Voici les options :
- amazon.nova-micro-v1:0:128k
- amazon.nova-lite-v1:0:300k
- amazon.nova-pro-v1:0:300k
- amazon.nova-2-lite-v1:0:256k
model_name_or_path : chemin vers le modèle de base ou le chemin S3 pour le point de contrôle post-entraîné (obligatoire). Voici les options :
- nova-micro/prod
- nova-lite/prod
- nova-pro/prod
- nova-lite-2/prod
- (chemin S3 pour le chemin de point de contrôle post-entraîné) s3://<escrow bucket>/<job id>/outputs/checkpoints
replicas : nombre d’instances de calcul à utiliser pour l’entraînement distribué (obligatoire). Vous devez définir cette valeur sur 1, car les nœuds multiples ne sont pas pris en charge.
data_s3_path : chemin S3 vers le jeu de données d’entrée (obligatoire). Laissez ce paramètre vide, sauf si vous utilisez la formule « apportez votre propre jeu de données » ou LLM-juge.
output_s3_path : chemin S3 pour stocker les artefacts d’évaluation de sortie (obligatoire). Notez que le compartiment S3 de sortie doit être créé par le même compte que celui qui crée la tâche.
mlflow_tracking_uri: ARN du serveur de MLflow suivi (facultatif) pour le suivi des MLFlow exécutions/expériences. Assurez-vous d'être autorisé à accéder au serveur de suivi à partir du rôle d'exécution SageMaker AI

Configuration d’évaluation

Vous trouverez ci-dessous une configuration d’évaluation des modèles et une explication des paramètres impliqués.


evaluation:
  task: mmlu
  strategy: zs_cot 
  subtask: mathematics
  metric: accuracy

task : spécifie le point de référence ou la tâche d’évaluation à utiliser (obligatoire).

Liste de tâches prises en charge :
- mmlu
- mmlu_pro
- bbh
- gpqa
- math
- strong_reject
- gen_qa
- ifeval
- llm_judge
- humaneval
- mm_llm_judge
- rubrique_llm_judge
- aime_2024
- calendar_planning
- humaneval
strategy : définit l’approche d’évaluation (obligatoire) :
- zs_cot : Zero-shot Chain-of-Thought - Une approche visant à générer de grands modèles de langage qui encouragent le step-by-step raisonnement sans nécessiter d'exemples explicites.
- zs : zéro coup, approche pour résoudre un problème sans aucun exemple d’entraînement préalable.
- gen_qa : stratégie spécifique pour apporter vos propres formules de jeux de données.
- judge : stratégie spécifique à Amazon Nova LLM as Judge et mm_llm_judge.
subtask : spécifie une sous-tâche spécifique pour certaines tâches d’évaluation (facultatif et amovible). Supprimez ceci de votre formule si votre tâche ne comporte aucune sous-tâche.
metric : métrique d’évaluation à utiliser (obligatoire).
- accuracy : pourcentage de bonnes réponses
- exact_match : renvoie le taux auquel les chaînes prédites en entrée correspondent exactement à leurs références (pour un point de référence math).
- deflection : renvoie la déflexion relative par rapport au modèle de base et la différence entre les métriques de signification (pour un point de référence strong reject).
- pass@1 : métrique utilisée pour mesurer le pourcentage de cas où la prédiction la plus fiable du modèle correspond à la bonne réponse (pour un point de référence humaneval).
- all : renvoie les métriques suivantes :
  - Pour gen_qa et « apportez votre propre point de référence de jeu de données », renvoie les métriques suivantes :
    
    rouge1 : mesure le chevauchement des unigrammes (mots uniques) entre le texte généré et le texte de référence.
    
    rouge2 : mesure le chevauchement des bigrammes (deux mots consécutifs) entre le texte généré et le texte de référence.
    
    rougeL : mesure la plus longue sous-séquence commune entre les textes, en tenant compte des lacunes dans la correspondance.
    
    exact_match : score binaire (0 ou 1) indiquant si le texte généré correspond exactement au texte de référence, caractère par caractère.
    
    quasi_exact_match : similaire à la correspondance exacte, mais plus indulgent, ignorant généralement les différences entre majuscules et minuscules, la ponctuation et les espaces.
    
    f1_score : moyenne harmonique de précision et de rappel, mesurant le chevauchement des mots entre les réponses prédites et les réponses de référence.
    
    f1_score_quasi : similaire à f1_score mais avec une correspondance plus souple, en utilisant une comparaison de texte normalisée qui ignore les différences mineures.
    
    bleu : mesure la précision des correspondances n-grammes entre le texte généré et le texte de référence, couramment utilisé dans l’évaluation des traductions.
  - Pour llm_judge etmm_llm_judge, apportez votre propre base de données de référence, renvoyez les métriques suivantes :
    
    a_scores : nombre de victoires pour response_A sur les passes d’évaluation avant et arrière.
    
    a_scores_stderr : erreur standard de response_A scores pour les jugements par paires.
    
    b_scores : nombre de victoires pour response_B sur les passes d’évaluation avant et arrière.
    
    b_scores_stderr : erreur standard de response_B scores pour les jugements par paires.
    
    ties : nombre de jugements où response_A et response_B sont évaluées comme égales.
    
    ties_stderr : erreur standard des égalités pour les jugements par paires.
    
    inference_error : nombre de jugements qui n’ont pas pu être correctement évalués.
    
    inference_error_stderr : erreur standard d’inférence entre les jugements.
    
    score : score agrégé basé sur les victoires obtenues lors des passes avant et arrière pour response_B.
    
    score_stderr : erreur type du score agrégé pour les jugements par paires.
    
    winrate : probabilité que la réponse response_B soit préférée à response_A, calculée à l’aide de la probabilité de Bradley-Terry.
    
    lower_rate : limite inférieure (2,5 percentile) du taux de victoire estimé à partir d’un échantillonnage d’amorçage.

Configuration d’inférence

Vous trouverez ci-dessous une configuration d’inférence et une explication des paramètres impliqués. Tous les paramètres sont facultatifs.


inference:
  max_new_tokens: 200 
  top_k: -1 
  top_p: 1.0 
  temperature: 0
  top_logprobs: 10
  reasoning_effort: null  # options: low/high to enable reasoning or null to disable reasoning

max_new_tokens : nombre maximum de jetons à générer. Il doit s’agir d’un nombre entier.
top_k : nombre de jetons présentant la probabilité la plus élevée à prendre en compte. Il doit s’agir d’un nombre entier.
top_p : seuil de probabilité cumulé pour l’échantillonnage de jetons. Il doit s’agir d’une valeur flottante comprise entre 0 et 1 inclus.
temperature : imprévisibilité dans la sélection des jetons. Plus les valeurs sont élevées, plus le caractère aléatoire est élevé. Utilisez 0 pour rendre les résultats déterministes. Il doit s’agir d’une valeur flottante d’au minimum 0.
top_logprobs: Le nombre de meilleures probs logprobs à renvoyer dans la réponse d'inférence. Cette valeur doit être un entier compris entre 0 et 20. Les logprobs contiennent les jetons de sortie pris en compte et les probabilités de journalisation de chaque jeton de sortie renvoyé dans le contenu du message.
reasoning_effort: contrôle le comportement de raisonnement pour les modèles capables de raisonner. Défini reasoning_effort uniquement lorsque model_type spécifie un modèle capable de raisonner (actuellementamazon.nova-2-lite-v1:0:256k). Les options disponibles sont null (valeur par défaut si elle n'est pas définie ; désactive le raisonnement)low, ouhigh.

Notez que pour humaneval, nous recommandons la configuration d’inférence suivante :


inference:
  top_k: 1
  max_new_tokens: 1600
  temperature: 0.0

MLFlow configuration

Vous trouverez ci-dessous une MLFlow configuration et une explication des paramètres concernés. Tous les paramètres sont facultatifs.


run:
  mlflow_tracking_uri: ""
  mlflow_experiment_name: ""
  mlflow_run_name: ""

mlflow_tracking_uri: Facultatif) L'emplacement du serveur de MLflow suivi (uniquement nécessaire sur SMHP)
mlflow_experiment_name: (Facultatif) Nom de l'expérience pour regrouper les essais de machine learning associés
mlflow_run_name: (Facultatif) Nom personnalisé pour un entraînement spécifique effectué dans le cadre d'une expérience

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Tâches de point de référence disponibles

Exemples de formules d’évaluation