Tareas de referencia disponibles - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Tareas de referencia disponibles

Hay disponible un paquete de códigos de muestra que muestra cómo calcular las métricas de referencia mediante la función de evaluación de modelos de SageMaker IA para Amazon Nova. Para acceder a los paquetes de códigos, consulte el ejemplo N. ova-lighteval-custom-task

A continuación se muestra una lista de las referencias estándar del sector disponibles y compatibles. Puede especificar las siguientes referencias para el parámetro eval_task:

Referencia

Modalidad

Description (Descripción)

Métricas

Strategy (Estrategia)

Subtarea disponible

mmlu

Texto

Comprensión del lenguaje multitarea: evalúa los conocimientos sobre 57 materias.

precisión

zs_cot

mmlu_pro

Texto

MMLU (subconjunto profesional): se centra en dominios profesionales como derecho, medicina, contabilidad e ingeniería.

precisión

zs_cot

No

bbh

Texto

Tareas de razonamiento avanzado: conjunto de problemas complejos que ponen a prueba las habilidades cognitivas y de resolución de problemas de nivel superior.

precisión

zs_cot

gpqa

Texto

Respuesta a preguntas de física general: evalúa la comprensión de conceptos de física y habilidades relacionadas con la resolución de problemas.

precisión

zs_cot

No

math

Texto

Resolución de problemas matemáticos: mide el razonamiento matemático en temas como álgebra, cálculo y problemas verbales.

exact_match

zs_cot

strong_reject

Texto

Tarea de control de calidad: prueba la capacidad del modelo para detectar y rechazar contenido inapropiado, dañino o incorrecto.

desviación

zs

IFEval

Texto

Evaluación de seguimiento de instrucciones: mide la precisión con la que un modelo sigue las instrucciones dadas y completa las tareas según las especificaciones.

precisión

zs

No

gen_qa

Texto

Evaluación personalizada de conjuntos de datos: permite utilizar un conjunto de datos propio para realizar evaluaciones comparativas y comparar resultados del modelo con respuestas de referencia con métricas como ROUGE y BLEU.

all

gen_qa

No

llm_judge

Texto

LLM-as-a-Judge Comparación de preferencias: utiliza un modelo Nova Judge para determinar la preferencia entre las respuestas emparejadas (B en comparación con A) para sus preguntas, calculando la probabilidad de que se prefiera B a A.

all

judge

No

humaneval

Texto

HumanEval - Un conjunto de datos de referencia diseñado para evaluar las capacidades de generación de código de los modelos de lenguaje de gran tamaño

pass@1

zs

No

mm_llm_judge

Multimodal (imagen)

Este nuevo punto de referencia se comporta igual que el anterior, basado en el textollm_judge. La única diferencia es que admite la inferencia de imágenes.

all

judge

No

rubric_llm_judge

Texto

Rubric Judge es un modelo de evaluación mejorado LLM-as-a-judge basado en Nova 2.0 Lite. A diferencia del modelo de juez original, que solo proporciona veredictos preferenciales, Rubric Judge genera de forma dinámica criterios de evaluación personalizados adaptados a cada solicitud y asigna puntajes granulares en múltiples dimensiones.

all

judge

No

aime_2024

Texto

AIME 2024: problemas del examen estadounidense de matemáticas por invitación que ponen a prueba el razonamiento matemático avanzado y la resolución de problemas

exact_match

zs_cot

No

calendar_programación

Texto

Natural Plan: calendario: tareas de programación que ponen a prueba las capacidades de planificación para programar reuniones en varios días y personas

exact_match

fs

No

Están disponibles las siguientes subtareas de mmlu:

MMLU_SUBTASKS = [ "abstract_algebra", "anatomy", "astronomy", "business_ethics", "clinical_knowledge", "college_biology", "college_chemistry", "college_computer_science", "college_mathematics", "college_medicine", "college_physics", "computer_security", "conceptual_physics", "econometrics", "electrical_engineering", "elementary_mathematics", "formal_logic", "global_facts", "high_school_biology", "high_school_chemistry", "high_school_computer_science", "high_school_european_history", "high_school_geography", "high_school_government_and_politics", "high_school_macroeconomics", "high_school_mathematics", "high_school_microeconomics", "high_school_physics", "high_school_psychology", "high_school_statistics", "high_school_us_history", "high_school_world_history", "human_aging", "human_sexuality", "international_law", "jurisprudence", "logical_fallacies", "machine_learning", "management", "marketing", "medical_genetics", "miscellaneous", "moral_disputes", "moral_scenarios", "nutrition", "philosophy", "prehistory", "professional_accounting", "professional_law", "professional_medicine", "professional_psychology", "public_relations", "security_studies", "sociology", "us_foreign_policy", "virology", "world_religions" ]

Están disponibles las siguientes subtareas de bbh:

BBH_SUBTASKS = [ "boolean_expressions", "causal_judgement", "date_understanding", "disambiguation_qa", "dyck_languages", "formal_fallacies", "geometric_shapes", "hyperbaton", "logical_deduction_five_objects", "logical_deduction_seven_objects", "logical_deduction_three_objects", "movie_recommendation", "multistep_arithmetic_two", "navigate", "object_counting", "penguins_in_a_table", "reasoning_about_colored_objects", "ruin_names", "salient_translation_error_detection", "snarks", "sports_understanding", "temporal_sequences", "tracking_shuffled_objects_five_objects", "tracking_shuffled_objects_seven_objects", "tracking_shuffled_objects_three_objects", "web_of_lies", "word_sorting" ]

Están disponibles las siguientes subtareas de math:

MATH_SUBTASKS = [ "algebra", "counting_and_probability", "geometry", "intermediate_algebra", "number_theory", "prealgebra", "precalculus", ]