Comprensión de los parámetros de fórmula

Ejecutar configuración

A continuación se ofrece una configuración de ejecución general y una explicación de los parámetros que intervienen.


run:
  name: eval_job_name 
  model_type: amazon.nova-micro-v1:0:128k 
  model_name_or_path: nova-micro/prod 
  replicas: 1 
  data_s3_path: ""
  output_s3_path: s3://output_path
  mlflow_tracking_uri: "" 
  mlflow_experiment_name : "" 
  mlflow_run_name : ""

name: (obligatorio) nombre descriptivo del trabajo de evaluación. Esto ayuda a identificar su trabajo en la AWS consola.
model_type: (obligatorio) especifica la variante del modelo de Amazon Nova que se va a utilizar. No modifique manualmente este campo. Las opciones son:
- amazon.nova-micro-v1:0:128k
- amazon.nova-lite-v1:0:300k
- amazon.nova-pro-v1:0:300k
- amazon.nova-2-lite-v1:0:256k
model_name_or_path: (obligatorio) ruta al modelo base o ruta de S3 para el punto de comprobación entrenado posteriormente. Las opciones son:
- nova-micro/prod
- nova-lite/prod
- nova-pro/prod
- nova-lite-2/prod
- (Ruta de S3 para el punto de comprobación entrenado posteriormente) s3://<escrow bucket>/<job id>/outputs/checkpoints
replicas: (obligatorio) número de instancias de computación que desea utilizar para entrenamiento distribuido. Debe establecer este valor en 1 porque no se admite el uso de varios nodos.
data_s3_path: (obligatorio) ruta de S3 al conjunto de datos de entrada. Deje este parámetro en blanco a menos que esté utilizando la fórmula uso del conjunto de datos propio o LLM como juez.
output_s3_path: (obligatorio) ruta de S3 para almacenar artefactos de evaluación de salida. Tenga en cuenta que el bucket de S3 de salida debe crearlo la misma cuenta que está creando el trabajo.
mlflow_tracking_uri: ARN del servidor de MLflow seguimiento (opcional) para rastrear MLFlow ejecuciones/experimentos. Asegúrese de tener permiso para acceder al servidor de seguimiento desde la función de ejecución de IA SageMaker

Configuración de evaluación

A continuación se ofrece una configuración de evaluación de modelos y una explicación de los parámetros que intervienen.


evaluation:
  task: mmlu
  strategy: zs_cot 
  subtask: mathematics
  metric: accuracy

task: (obligatorio) Especifica la referencia o la tarea de evaluación que se va a utilizar.

Lista de tareas admitidas:
- mmlu
- mmlu_pro
- bbh
- gpqa
- math
- strong_reject
- gen_qa
- ifeval
- llm_judge
- humaneval
- mm_llm_judge
- rúbric_llm_judge
- aime_2024
- calendar_programación
- humaneval
strategy: (obligatorio) define el enfoque de evaluación:
- zs_cot: Zero-shot Chain-of-Thought: un enfoque para impulsar modelos de lenguaje extensos que fomenta el razonamiento sin requerir ejemplos explícitos. step-by-step
- zs: cero intentos: enfoque para resolver un problema sin ejemplos de entrenamiento anteriores.
- gen_qa: estrategia específica para crear fórmulas de conjuntos de datos propias.
- juez: una estrategia específica para Amazon Nova LLM como juez y mm_llm_judge.
subtask: (opcional y eliminable) especifica una subtarea específica para determinadas tareas de evaluación. Elimine esta opción de la fórmula si la tarea no tiene ninguna subtarea.
metric: (obligatorio) métrica de evaluación que se va a utilizar.
- accuracy: porcentaje de respuestas correctas
- exact_match: (para referencia math), devuelve la velocidad a la que las cadenas de entrada previstas coinciden exactamente con sus referencias.
- deflection: (para referencia strong reject), devuelve la deflexión relativa al modelo base y la diferencia en las métricas de importancia.
- pass@1: (para referencia humaneval) es una métrica que se utiliza para medir el porcentaje de casos en los que la predicción de mayor confianza del modelo coincide con la respuesta correcta.
- all: devuelve las siguientes métricas:
  - Para gen_qa y uso de su propia referencia de conjunto de datos, devuelve las siguientes métricas:
    
    rouge1: mide la superposición de unigramas (palabras individuales) entre texto generado y de referencia.
    
    rouge2: mide la superposición de bigramas (dos palabras consecutivas) entre texto generado y de referencia.
    
    rougeL: mide la subsecuencia común más larga entre textos, por lo que puede haber lagunas en la coincidencia.
    
    exact_match: puntuación binaria (0 o 1) que indica si el texto generado coincide exactamente con el texto de referencia, carácter por carácter.
    
    quasi_exact_match: similar a la coincidencia exacta, pero más flexible, pues suele ignorar el uso de mayúsculas y minúsculas, los signos de puntuación y los espacios en blanco.
    
    f1_score: media armónica de precisión y recuperación que mide la superposición de palabras entre respuestas previstas y de referencia.
    
    f1_score_quasi: similar a f1_score, pero con una coincidencia más flexible, utiliza una comparación de texto normalizada que no tiene en cuenta pequeñas diferencias.
    
    bleu: mide la precisión de las coincidencias de n-gramas entre texto generado y de referencia, suele utilizarse en la evaluación de traducciones.
  - Para obtener su propio llm_judge punto de referencia de conjunto de datosmm_llm_judge, devuelva las siguientes métricas:
    
    a_scores: número de aciertos para response_A en pasadas de evaluación hacia delante y hacia atrás.
    
    a_scores_stderr: error estándar de response_A scores en juicios por pares.
    
    b_scores: número de aciertos para response_B en pasadas de evaluación hacia delante y hacia atrás.
    
    b_scores_stderr: error estándar de response_B scores en juicios por pares.
    
    ties: número de juicios en los que se evalúa response_A y response_B como iguales.
    
    ties_stderr: error estándar de ties en juicios por pares.
    
    inference_error: número de juicios que no se han podido evaluar adecuadamente.
    
    inference_error_stderr: error estándar de errores de inferencia en todos los juicios.
    
    score: puntuación global basada en aciertos de pasadas hacia adelante y hacia atrás para response_B.
    
    score_stderr: error estándar de puntuación global en juicios por pares.
    
    winrate: probabilidad de que se prefiera response_B a response_A calculada utilizando probabilidad de Bradley-Terry.
    
    lower_rate: límite inferior (percentil 2,5) de la tasa de aciertos estimada a partir del muestreo de inicio.

Configuración de inferencias

A continuación se ofrece una configuración de inferencia y una explicación de los parámetros que intervienen. Todos los parámetros son opcionales.


inference:
  max_new_tokens: 200 
  top_k: -1 
  top_p: 1.0 
  temperature: 0
  top_logprobs: 10
  reasoning_effort: null  # options: low/high to enable reasoning or null to disable reasoning

max_new_tokens: número máximo de tokens que se generarán. Debe ser un número entero.
top_k: número de tokens de mayor probabilidad que se deben tener en cuenta. Debe ser un número entero.
top_p: umbral de probabilidad acumulada para el muestreo de tokens. Debe ser un valor flotante entre 0,0 and 1,0, ambos inclusive.
temperature: asignación al azar en selección de tokens. Los valores más altos introducen más asignación al azar. Use 0 para hacer que los resultados sean deterministas. Este valor debe ser flotante con un mínimo de 0.
top_logprobs: El número de probs logarítmicos principales que se devolverán en la respuesta de inferencia. Este valor debe ser un número entero comprendido entre 0 y 20. Los logprobs contienen los indicadores de salida considerados y las probabilidades de registro de cada token de salida devuelto en el contenido del mensaje.
reasoning_effort: controla el comportamiento de razonamiento de los modelos capaces de razonar. Se establece reasoning_effort solo cuando se model_type especifica un modelo con capacidad de razonamiento (actualmente). amazon.nova-2-lite-v1:0:256k Las opciones disponibles son null (valor predeterminado si no está establecido; deshabilita el razonamiento), low o. high

Tenga en cuenta que para humaneval recomendamos la siguiente configuración de inferencia:


inference:
  top_k: 1
  max_new_tokens: 1600
  temperature: 0.0

MLFlow configuración

La siguiente es una MLFlow configuración y una explicación de los parámetros involucrados. Todos los parámetros son opcionales.


run:
  mlflow_tracking_uri: ""
  mlflow_experiment_name: ""
  mlflow_run_name: ""

mlflow_tracking_uri: (Opcional) La ubicación del servidor de MLflow seguimiento (solo se necesita en SMHP)
mlflow_experiment_name: (Opcional) Nombre del experimento para agrupar las ejecuciones de aprendizaje automático relacionadas
mlflow_run_name: (Opcional) Nombre personalizado para un entrenamiento específico realizado dentro de un experimento

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Tareas de referencia disponibles

Ejemplos de fórmula de evaluación