Tâches de point de référence disponibles - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Tâches de point de référence disponibles

Un exemple de package de code est disponible qui montre comment calculer les mesures de référence à l'aide de la fonctionnalité d'évaluation du modèle d' SageMaker intelligence artificielle pour Amazon Nova. Pour accéder aux packages de code, consultez Sample-n ova-lighteval-custom-task.

Voici une liste des points de référence standard pris en charge. Vous pouvez spécifier les points de référence suivants dans le paramètre eval_task :

Comparaison

Modalité

Description

Métriques

Stratégie

Sous-tâche disponible

mmlu

Texte

Compréhension linguistique multitâche : teste les connaissances dans 57 domaines.

précision

zs_cot

Oui

mmlu_pro

Texte

MMLU – Sous-ensemble professionnel : se concentre sur les domaines professionnels tels que le droit, la médecine, la comptabilité et l’ingénierie.

précision

zs_cot

Non

bbh

Texte

Tâches de raisonnement avancées : ensemble de problèmes difficiles qui mettent à l’épreuve des compétences cognitives et de résolution de problèmes de haut niveau.

précision

zs_cot

Oui

gpqa

Texte

Réponses aux questions de physique générale : évalue la compréhension des concepts de physique et les capacités de résolution de problèmes connexes.

précision

zs_cot

Non

math

Texte

Résolution de problèmes mathématiques : mesure le raisonnement mathématique dans des domaines tels que l’algèbre, le calcul et les problèmes de mots.

exact_match

zs_cot

Oui

strong_reject

Texte

Tâche de contrôle qualité : teste la capacité du modèle à détecter et à rejeter le contenu inapproprié, préjudiciable ou incorrect.

deflection

zs

Oui

IFEval

Texte

Évaluation suivant les instructions : évalue la précision avec laquelle un modèle suit les instructions données et exécute les tâches conformément aux spécifications.

précision

zs

Non

gen_qa

Texte

Évaluation personnalisée du jeu de données : vous permet de fournir votre propre jeu de données à des fins d’analyse comparative, et de comparer les sorties du modèle aux réponses de référence avec des métriques telles que ROUGE et BLEU.

tout

gen_qa

Non

llm_judge

Texte

LLM-as-a-Judge Comparaison des préférences — Utilise un modèle Nova Judge pour déterminer la préférence entre les réponses appariées (B par rapport à A) pour vos invites, en calculant la probabilité que B soit préféré à A.

tout

judge

Non

humaneval

Texte

HumanEval - Un ensemble de données de référence conçu pour évaluer les capacités de génération de code des grands modèles de langage

pass@1

zs

Non

mm_llm_judge

Multimodal (image)

Ce nouveau benchmark se comporte de la même manière que le modèle basé sur le texte ci-dessusllm_judge. La seule différence est qu'il prend en charge l'inférence d'image.

tout

judge

Non

rubrique_llm_judge

Texte

Rubric Judge est un modèle d' LLM-as-a-judgeévaluation amélioré basé sur Nova 2.0 Lite. Contrairement au modèle de juge original qui ne fournit que des verdicts de préférence, Rubric Judge génère de manière dynamique des critères d'évaluation personnalisés adaptés à chaque invite et attribue des scores granulaires sur plusieurs dimensions.

tout

judge

Non

aime_2024

Texte

AIME 2024 - Problèmes de l'examen de mathématiques sur invitation américain testant le raisonnement mathématique avancé et la résolution de problèmes

exact_match

zs_cot

Non

calendar_planning

Texte

Natural Plan - Planification du calendrier, test des tâches, capacités de planification pour planifier des réunions sur plusieurs jours et plusieurs personnes

exact_match

fs

Non

Les sous-tâches mmlu suivantes sont disponibles :

MMLU_SUBTASKS = [ "abstract_algebra", "anatomy", "astronomy", "business_ethics", "clinical_knowledge", "college_biology", "college_chemistry", "college_computer_science", "college_mathematics", "college_medicine", "college_physics", "computer_security", "conceptual_physics", "econometrics", "electrical_engineering", "elementary_mathematics", "formal_logic", "global_facts", "high_school_biology", "high_school_chemistry", "high_school_computer_science", "high_school_european_history", "high_school_geography", "high_school_government_and_politics", "high_school_macroeconomics", "high_school_mathematics", "high_school_microeconomics", "high_school_physics", "high_school_psychology", "high_school_statistics", "high_school_us_history", "high_school_world_history", "human_aging", "human_sexuality", "international_law", "jurisprudence", "logical_fallacies", "machine_learning", "management", "marketing", "medical_genetics", "miscellaneous", "moral_disputes", "moral_scenarios", "nutrition", "philosophy", "prehistory", "professional_accounting", "professional_law", "professional_medicine", "professional_psychology", "public_relations", "security_studies", "sociology", "us_foreign_policy", "virology", "world_religions" ]

Les sous-tâches bbh suivantes sont disponibles :

BBH_SUBTASKS = [ "boolean_expressions", "causal_judgement", "date_understanding", "disambiguation_qa", "dyck_languages", "formal_fallacies", "geometric_shapes", "hyperbaton", "logical_deduction_five_objects", "logical_deduction_seven_objects", "logical_deduction_three_objects", "movie_recommendation", "multistep_arithmetic_two", "navigate", "object_counting", "penguins_in_a_table", "reasoning_about_colored_objects", "ruin_names", "salient_translation_error_detection", "snarks", "sports_understanding", "temporal_sequences", "tracking_shuffled_objects_five_objects", "tracking_shuffled_objects_seven_objects", "tracking_shuffled_objects_three_objects", "web_of_lies", "word_sorting" ]

Les sous-tâches math suivantes sont disponibles :

MATH_SUBTASKS = [ "algebra", "counting_and_probability", "geometry", "intermediate_algebra", "number_theory", "prealgebra", "precalculus", ]