Evaluación del modelo de razonamiento - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Evaluación del modelo de razonamiento

Descripción general de

El soporte del modelo de razonamiento permite la evaluación con modelos Nova capaces de razonar que realizan un razonamiento interno explícito antes de generar las respuestas finales. Esta función utiliza el control a nivel de API mediante el reasoning_effort parámetro para activar o desactivar de forma dinámica la funcionalidad de razonamiento, lo que podría mejorar la calidad de la respuesta en tareas analíticas complejas.

Modelos compatibles

  • amazon.nova-2-lite-v 1:0:256 k

Configuración de recetas

Habilita el razonamiento añadiendo el reasoning_effort parámetro a la inference sección de tu receta:

run: name: reasoning-eval-job-name # [MODIFIABLE] Unique identifier for your evaluation job model_type: amazon.nova-2-lite-v1:0:256k # [FIXED] Must be a reasoning-supported model model_name_or_path: nova-lite-2/prod # [FIXED] Path to model checkpoint or identifier replicas: 1 # [MODIFIABLE] Number of replicas for SageMaker Training job data_s3_path: "" # [MODIFIABLE] Leave empty for SageMaker Training job; optional for SageMaker HyperPod job output_s3_path: "" # [MODIFIABLE] Output path for SageMaker HyperPod job (not compatible with SageMaker Training jobs) evaluation: task: mmlu # [MODIFIABLE] Evaluation task strategy: zs_cot # [MODIFIABLE] Evaluation strategy metric: accuracy # [MODIFIABLE] Metric calculation method inference: reasoning_effort: high # [MODIFIABLE] Enables reasoning mode; options: low/high or null to disable max_new_tokens: 32768 # [MODIFIABLE] Maximum tokens to generate, recommended value when reasoning_effort set to high top_k: -1 # [MODIFIABLE] Top-k sampling parameter top_p: 1.0 # [MODIFIABLE] Nucleus sampling parameter temperature: 0 # [MODIFIABLE] Sampling temperature (0 = deterministic)

Usando el parámetro reasoning_effort

El reasoning_effort parámetro controla el comportamiento de razonamiento de los modelos con capacidad de razonamiento.

Requisitos previos

  • Compatibilidad de modelos: se establece reasoning_effort solo cuando se model_type especifica un modelo con capacidad de razonamiento (actualmente) amazon.nova-2-lite-v1:0:256k

  • Gestión de errores: si se utiliza reasoning_effort con modelos no compatibles, se producirá un error con ConfigValidationError: "Reasoning mode is enabled but model '{model_type}' does not support reasoning. Please use a reasoning-capable model or disable reasoning mode."

Opciones disponibles

Opción Comportamiento Límite de fichas Caso de uso
nulo (predeterminado) Desactiva el modo de razonamiento N/A Evaluación estándar sin sobrecarga de razonamiento
low Permite razonar con restricciones 4.000 fichas para el razonamiento interno Escenarios que requieren un razonamiento conciso; optimiza la velocidad y el coste
high Permite razonar sin restricciones El razonamiento interno no tiene un límite simbólico Problemas complejos que requieren un análisis y un step-by-step razonamiento exhaustivos
Método de entrenamiento Opciones disponibles ¿Cómo configurar
SFT (ajuste fino supervisado) Solo alta o desactivada Utilice reasoning_enabled: true (alto) o reasoning_enabled: false (desactivado)
RFT (ajuste fino de refuerzo) Bajo, alto o desactivado Utilice reasoning_effort: low o reasoning_effort: high. Omita el campo para deshabilitarlo.
Evaluación Bajo, Alto o Desactivado Utilice reasoning_effort: low o reasoning_effort: high. Use null para inhabilitar.

¿Cuándo habilitar el razonamiento

Utilice el modo de razonamiento (lowohigh) para

  • Tareas complejas de resolución de problemas (matemáticas, acertijos de lógica, codificación)

  • Preguntas analíticas de varios pasos que requieren un razonamiento intermedio

  • Tareas en las que las explicaciones o el step-by-step pensamiento detallados mejoran la precisión

  • Escenarios en los que se da prioridad a la calidad de la respuesta por encima de la velocidad

Utilice el modo sin razonamiento (nullu omita el parámetro) para

  • Preguntas y respuestas sencillas o consultas basadas en hechos

  • Tareas de escritura creativa

  • Cuando los tiempos de respuesta más rápidos son fundamentales

  • Evaluación comparativa del rendimiento, en la que debe excluirse la sobrecarga de razonamiento

  • Optimización de costes cuando el razonamiento no mejora el rendimiento de la tarea

Resolución de problemas

Error: «El modo de razonamiento está activado pero el modelo no admite el razonamiento»

Causa: el reasoning_effort parámetro está establecido en un valor no nulo, pero el especificado model_type no admite el razonamiento.

Solución:

  • Compruebe que el tipo de modelo es amazon.nova-2-lite-v1:0:256k

  • Si utilizas un modelo diferente, cámbialo a un modelo apto para razonar o elimina el reasoning_effort parámetro de la receta