Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Tâches de point de référence disponibles
Un exemple de package de code est disponible qui montre comment calculer les mesures de référence à l'aide de la fonctionnalité d'évaluation du modèle d' SageMaker intelligence artificielle pour Amazon Nova. Pour accéder aux packages de code, consultez Sample-n ova-lighteval-custom-task
Voici une liste des points de référence standard pris en charge. Vous pouvez spécifier les points de référence suivants dans le paramètre eval_task :
Comparaison |
Modalité |
Description |
Métriques |
Stratégie |
Sous-tâche disponible |
|---|---|---|---|---|---|
mmlu |
Texte |
Compréhension linguistique multitâche : teste les connaissances dans 57 domaines. |
précision |
zs_cot |
Oui |
mmlu_pro |
Texte |
MMLU – Sous-ensemble professionnel : se concentre sur les domaines professionnels tels que le droit, la médecine, la comptabilité et l’ingénierie. |
précision |
zs_cot |
Non |
bbh |
Texte |
Tâches de raisonnement avancées : ensemble de problèmes difficiles qui mettent à l’épreuve des compétences cognitives et de résolution de problèmes de haut niveau. |
précision |
zs_cot |
Oui |
gpqa |
Texte |
Réponses aux questions de physique générale : évalue la compréhension des concepts de physique et les capacités de résolution de problèmes connexes. |
précision |
zs_cot |
Non |
math |
Texte |
Résolution de problèmes mathématiques : mesure le raisonnement mathématique dans des domaines tels que l’algèbre, le calcul et les problèmes de mots. |
exact_match |
zs_cot |
Oui |
strong_reject |
Texte |
Tâche de contrôle qualité : teste la capacité du modèle à détecter et à rejeter le contenu inapproprié, préjudiciable ou incorrect. |
deflection |
zs |
Oui |
IFEval |
Texte |
Évaluation suivant les instructions : évalue la précision avec laquelle un modèle suit les instructions données et exécute les tâches conformément aux spécifications. |
précision |
zs |
Non |
gen_qa |
Texte |
Évaluation personnalisée du jeu de données : vous permet de fournir votre propre jeu de données à des fins d’analyse comparative, et de comparer les sorties du modèle aux réponses de référence avec des métriques telles que ROUGE et BLEU. |
tout |
gen_qa |
Non |
llm_judge |
Texte |
LLM-as-a-Judge Comparaison des préférences — Utilise un modèle Nova Judge pour déterminer la préférence entre les réponses appariées (B par rapport à A) pour vos invites, en calculant la probabilité que B soit préféré à A. |
tout |
judge |
Non |
humaneval |
Texte |
HumanEval - Un ensemble de données de référence conçu pour évaluer les capacités de génération de code des grands modèles de langage |
pass@1 |
zs |
Non |
|
mm_llm_judge |
Multimodal (image) |
Ce nouveau benchmark se comporte de la même manière que le modèle basé sur le texte ci-dessus |
tout |
judge |
Non |
|
rubrique_llm_judge |
Texte |
Rubric Judge est un modèle d' LLM-as-a-judgeévaluation amélioré basé sur Nova 2.0 Lite. Contrairement au modèle de juge original |
tout |
judge |
Non |
|
aime_2024 |
Texte |
AIME 2024 - Problèmes de l'examen de mathématiques sur invitation américain testant le raisonnement mathématique avancé et la résolution de problèmes |
exact_match |
zs_cot |
Non |
|
calendar_planning |
Texte |
Natural Plan - Planification du calendrier, test des tâches, capacités de planification pour planifier des réunions sur plusieurs jours et plusieurs personnes |
exact_match |
fs |
Non |
Les sous-tâches mmlu suivantes sont disponibles :
MMLU_SUBTASKS = [ "abstract_algebra", "anatomy", "astronomy", "business_ethics", "clinical_knowledge", "college_biology", "college_chemistry", "college_computer_science", "college_mathematics", "college_medicine", "college_physics", "computer_security", "conceptual_physics", "econometrics", "electrical_engineering", "elementary_mathematics", "formal_logic", "global_facts", "high_school_biology", "high_school_chemistry", "high_school_computer_science", "high_school_european_history", "high_school_geography", "high_school_government_and_politics", "high_school_macroeconomics", "high_school_mathematics", "high_school_microeconomics", "high_school_physics", "high_school_psychology", "high_school_statistics", "high_school_us_history", "high_school_world_history", "human_aging", "human_sexuality", "international_law", "jurisprudence", "logical_fallacies", "machine_learning", "management", "marketing", "medical_genetics", "miscellaneous", "moral_disputes", "moral_scenarios", "nutrition", "philosophy", "prehistory", "professional_accounting", "professional_law", "professional_medicine", "professional_psychology", "public_relations", "security_studies", "sociology", "us_foreign_policy", "virology", "world_religions" ]
Les sous-tâches bbh suivantes sont disponibles :
BBH_SUBTASKS = [ "boolean_expressions", "causal_judgement", "date_understanding", "disambiguation_qa", "dyck_languages", "formal_fallacies", "geometric_shapes", "hyperbaton", "logical_deduction_five_objects", "logical_deduction_seven_objects", "logical_deduction_three_objects", "movie_recommendation", "multistep_arithmetic_two", "navigate", "object_counting", "penguins_in_a_table", "reasoning_about_colored_objects", "ruin_names", "salient_translation_error_detection", "snarks", "sports_understanding", "temporal_sequences", "tracking_shuffled_objects_five_objects", "tracking_shuffled_objects_seven_objects", "tracking_shuffled_objects_three_objects", "web_of_lies", "word_sorting" ]
Les sous-tâches math suivantes sont disponibles :
MATH_SUBTASKS = [ "algebra", "counting_and_probability", "geometry", "intermediate_algebra", "number_theory", "prealgebra", "precalculus", ]