Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Tareas de referencia disponibles
Hay disponible un paquete de códigos de muestra que muestra cómo calcular las métricas de referencia mediante la función de evaluación de modelos de SageMaker IA para Amazon Nova. Para acceder a los paquetes de códigos, consulte el ejemplo N. ova-lighteval-custom-task
A continuación se muestra una lista de las referencias estándar del sector disponibles y compatibles. Puede especificar las siguientes referencias para el parámetro eval_task:
Referencia |
Modalidad |
Description (Descripción) |
Métricas |
Strategy (Estrategia) |
Subtarea disponible |
|---|---|---|---|---|---|
mmlu |
Texto |
Comprensión del lenguaje multitarea: evalúa los conocimientos sobre 57 materias. |
precisión |
zs_cot |
Sí |
mmlu_pro |
Texto |
MMLU (subconjunto profesional): se centra en dominios profesionales como derecho, medicina, contabilidad e ingeniería. |
precisión |
zs_cot |
No |
bbh |
Texto |
Tareas de razonamiento avanzado: conjunto de problemas complejos que ponen a prueba las habilidades cognitivas y de resolución de problemas de nivel superior. |
precisión |
zs_cot |
Sí |
gpqa |
Texto |
Respuesta a preguntas de física general: evalúa la comprensión de conceptos de física y habilidades relacionadas con la resolución de problemas. |
precisión |
zs_cot |
No |
math |
Texto |
Resolución de problemas matemáticos: mide el razonamiento matemático en temas como álgebra, cálculo y problemas verbales. |
exact_match |
zs_cot |
Sí |
strong_reject |
Texto |
Tarea de control de calidad: prueba la capacidad del modelo para detectar y rechazar contenido inapropiado, dañino o incorrecto. |
desviación |
zs |
Sí |
IFEval |
Texto |
Evaluación de seguimiento de instrucciones: mide la precisión con la que un modelo sigue las instrucciones dadas y completa las tareas según las especificaciones. |
precisión |
zs |
No |
gen_qa |
Texto |
Evaluación personalizada de conjuntos de datos: permite utilizar un conjunto de datos propio para realizar evaluaciones comparativas y comparar resultados del modelo con respuestas de referencia con métricas como ROUGE y BLEU. |
all |
gen_qa |
No |
llm_judge |
Texto |
LLM-as-a-Judge Comparación de preferencias: utiliza un modelo Nova Judge para determinar la preferencia entre las respuestas emparejadas (B en comparación con A) para sus preguntas, calculando la probabilidad de que se prefiera B a A. |
all |
judge |
No |
humaneval |
Texto |
HumanEval - Un conjunto de datos de referencia diseñado para evaluar las capacidades de generación de código de los modelos de lenguaje de gran tamaño |
pass@1 |
zs |
No |
|
mm_llm_judge |
Multimodal (imagen) |
Este nuevo punto de referencia se comporta igual que el anterior, basado en el texto |
all |
judge |
No |
|
rubric_llm_judge |
Texto |
Rubric Judge es un modelo de evaluación mejorado LLM-as-a-judge basado en Nova 2.0 Lite. A diferencia del modelo de juez original |
all |
judge |
No |
|
aime_2024 |
Texto |
AIME 2024: problemas del examen estadounidense de matemáticas por invitación que ponen a prueba el razonamiento matemático avanzado y la resolución de problemas |
exact_match |
zs_cot |
No |
|
calendar_programación |
Texto |
Natural Plan: calendario: tareas de programación que ponen a prueba las capacidades de planificación para programar reuniones en varios días y personas |
exact_match |
fs |
No |
Están disponibles las siguientes subtareas de mmlu:
MMLU_SUBTASKS = [ "abstract_algebra", "anatomy", "astronomy", "business_ethics", "clinical_knowledge", "college_biology", "college_chemistry", "college_computer_science", "college_mathematics", "college_medicine", "college_physics", "computer_security", "conceptual_physics", "econometrics", "electrical_engineering", "elementary_mathematics", "formal_logic", "global_facts", "high_school_biology", "high_school_chemistry", "high_school_computer_science", "high_school_european_history", "high_school_geography", "high_school_government_and_politics", "high_school_macroeconomics", "high_school_mathematics", "high_school_microeconomics", "high_school_physics", "high_school_psychology", "high_school_statistics", "high_school_us_history", "high_school_world_history", "human_aging", "human_sexuality", "international_law", "jurisprudence", "logical_fallacies", "machine_learning", "management", "marketing", "medical_genetics", "miscellaneous", "moral_disputes", "moral_scenarios", "nutrition", "philosophy", "prehistory", "professional_accounting", "professional_law", "professional_medicine", "professional_psychology", "public_relations", "security_studies", "sociology", "us_foreign_policy", "virology", "world_religions" ]
Están disponibles las siguientes subtareas de bbh:
BBH_SUBTASKS = [ "boolean_expressions", "causal_judgement", "date_understanding", "disambiguation_qa", "dyck_languages", "formal_fallacies", "geometric_shapes", "hyperbaton", "logical_deduction_five_objects", "logical_deduction_seven_objects", "logical_deduction_three_objects", "movie_recommendation", "multistep_arithmetic_two", "navigate", "object_counting", "penguins_in_a_table", "reasoning_about_colored_objects", "ruin_names", "salient_translation_error_detection", "snarks", "sports_understanding", "temporal_sequences", "tracking_shuffled_objects_five_objects", "tracking_shuffled_objects_seven_objects", "tracking_shuffled_objects_three_objects", "web_of_lies", "word_sorting" ]
Están disponibles las siguientes subtareas de math:
MATH_SUBTASKS = [ "algebra", "counting_and_probability", "geometry", "intermediate_algebra", "number_theory", "prealgebra", "precalculus", ]