Requisitos del formato de los datos Preparando su receta de evaluación Funciones de recompensa preestablecidas Creando tu función de recompensa Permisos de IAM Ejecutar el trabajo de evaluación Entender los resultados de la evaluación

Evaluación de RFT

nota

La evaluación mediante funciones de recompensa remota en su propio AWS entorno solo está disponible si es cliente de Nova Forge.

importante

El campo rl_env de configuración se utiliza exclusivamente para la evaluación, no para la formación. Durante el entrenamiento, las funciones de recompensa se configuran mediante una infraestructura reward_lambda_arn (de un solo turno) o BYOO rollout.delegate: true (con varios turnos).

¿Qué es la evaluación RFT?

La evaluación RFT le permite evaluar el rendimiento de su modelo mediante funciones de recompensa personalizadas antes, durante o después del entrenamiento de aprendizaje reforzado. A diferencia de las evaluaciones estándar que utilizan métricas predefinidas, la evaluación RFT le permite definir sus propios criterios de éxito mediante una función Lambda que puntúa los resultados del modelo en función de sus requisitos específicos.

¿Por qué evaluar con RFT?

La evaluación es crucial para determinar si el proceso de ajuste fino de la RL tiene:

Alineación mejorada del modelo con su caso de uso específico y sus valores humanos
Se mantuvieron o mejoraron las capacidades del modelo en tareas clave
Se evitaron los efectos secundarios no deseados, como la reducción de la objetividad, el aumento de la verbosidad o la degradación del rendimiento en otras tareas
Cumplió sus criterios de éxito personalizados, tal como los define su función de recompensas

¿Cuándo utilizar la evaluación RFT

Utilice la evaluación RFT en los siguientes escenarios:

Antes de la capacitación sobre RFT: establezca métricas de referencia en su conjunto de datos de evaluación
Durante la formación en RFT: supervise el progreso de la formación con puntos de control intermedios
Después de la formación en RFT: valide que el modelo final cumpla con sus requisitos
Comparación de modelos: evalúe varias versiones de modelos utilizando criterios de recompensa coherentes

nota

Utilice la evaluación de RFT cuando necesite métricas personalizadas y específicas de un dominio. Para una evaluación de uso general (precisión, perplejidad, BLEU), utilice métodos de evaluación estándar.

Requisitos del formato de los datos

Estructura de datos de entrada

Los datos de entrada de la evaluación RFT deben seguir el formato OpenAI Reinforcement Fine-Tuning. Cada ejemplo es un objeto JSON que contiene:

messages: Conjunto de turnos conversacionales con system y roles user
Otros metadatos opcionales, por ejemplo, reference_answer

Ejemplo de formato de datos

El siguiente ejemplo muestra el formato requerido:


{
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "Solve for x. Return only JSON like {\"x\": <number>}. Equation: 2x + 5 = 13"
        }
      ]
    }
  ],
  "reference_answer": {
    "x": 4
  }
}

Limitaciones actuales

Las siguientes limitaciones se aplican a la evaluación de la RFT:

Solo texto: no se admiten entradas multimodales (imágenes, audio, vídeo)
Conversaciones en un solo turno: solo admite mensajes de un solo usuario (no se admiten diálogos de varios turnos)
Formato JSON: los datos de entrada deben estar en formato JSONL (un objeto JSON por línea)
Resultados del modelo: la evaluación se realiza sobre las terminaciones generadas a partir del modelo especificado

Preparando su receta de evaluación

Ejemplo de configuración de receta

El siguiente ejemplo muestra una receta completa de evaluación de la RFT:


run:
  name: nova-lite-rft-eval-job
  model_type: amazon.nova-lite-v1:0:300k
  model_name_or_path: s3://escrow_bucket/model_location    # [MODIFIABLE] S3 path to your model or model identifier
  replicas: 1                                             # [MODIFIABLE] For SageMaker Training jobs only; fixed for HyperPod jobs
  data_s3_path: ""                                        # [REQUIRED FOR HYPERPOD] Leave empty for SageMaker Training jobs
  output_s3_path: ""                                      # [REQUIRED] Output artifact S3 path for evaluation results

evaluation:
  task: rft_eval                                          # [FIXED] Do not modify
  strategy: rft_eval                                      # [FIXED] Do not modify
  metric: all                                             # [FIXED] Do not modify

# Inference Configuration
inference:
  max_new_tokens: 8196                                    # [MODIFIABLE] Maximum tokens to generate
  top_k: -1                                               # [MODIFIABLE] Top-k sampling parameter
  top_p: 1.0                                              # [MODIFIABLE] Nucleus sampling parameter
  temperature: 0                                          # [MODIFIABLE] Sampling temperature (0 = deterministic)
  top_logprobs: 0

# Evaluation Environment Configuration (NOT used in training)
rl_env:
  reward_lambda_arn: arn:aws:lambda:<region>:<account_id>:function:<reward-function-name>

Funciones de recompensa preestablecidas

Hemos incluido 2 funciones de recompensa predefinidas (prime_code, prime_math) de la biblioteca verl de código abierto en una capa lambda que puedes combinarlas fácilmente con tu RFT lambda para usarlas.

Descripción general de

out-of-the-boxEstas funciones predefinidas proporcionan capacidades de evaluación para:

prime_code: generación de código y evaluación de la corrección
prime_math: Evaluación del razonamiento matemático y la resolución de problemas

Configuración rápida

Para usar funciones de recompensa preestablecidas:

Descargue la capa Lambda de las versiones nova-custom-eval-sdk

Publique la capa Lambda mediante CLIAWS:


aws lambda publish-layer-version \
    --layer-name preset-function-layer \
    --description "Preset reward function layer with dependencies" \
    --zip-file fileb://universal_reward_layer.zip \
    --compatible-runtimes python3.9 python3.10 python3.11 python3.12 \
    --compatible-architectures x86_64 arm64

Añada la capa a su función Lambda en la AWS consola (seleccione la preset-function-layer capa personalizada y añada también AWSSDKPandas-Python 312 para las numerosas dependencias)

Importe y use en su código Lambda:


from prime_code import compute_score  # For code evaluation
from prime_math import compute_score  # For math evaluation

función prime_code

Objetivo: Evalúa las tareas de generación de código de Python mediante la ejecución del código en casos de prueba y la medición de la corrección.

Ejemplo de formato de conjunto de datos de entrada a partir de la evaluación:


{"messages":[{"role":"user","content":"Write a function that returns the sum of two numbers."}],"reference_answer":{"inputs":["3\n5","10\n-2","0\n0"],"outputs":["8","8","0"]}}
{"messages":[{"role":"user","content":"Write a function to check if a number is even."}],"reference_answer":{"inputs":["4","7","0","-2"],"outputs":["True","False","True","True"]}}

Características principales:

Extracción automática de código de bloques de códigos rebajados
Detección de funciones y pruebas basadas en llamadas
Pruebe la ejecución de casos con protección de tiempo de espera
Comprobaciones de validación y compilación de la sintaxis
Informes detallados de errores con rastreos

función prime_math

Propósito: Evalúa el razonamiento matemático y las capacidades de resolución de problemas con apoyo matemático simbólico.

Formato de entrada:


{"messages":[{"role":"user","content":"What is the derivative of x^2 + 3x?."}],"reference_answer":"2*x + 3"}

Características principales:

Evaluación matemática simbólica mediante SymPy
Múltiples formatos de respuesta (LaTeX, texto plano, simbólico)
Comprobación de equivalencias matemáticas
Normalización y simplificación de expresiones

Prácticas recomendadas

Siga estas prácticas recomendadas al utilizar las funciones de recompensa preestablecidas:

Utilice los tipos de datos adecuados en los casos de prueba (números enteros frente a cadenas, valores booleanos frente a «verdaderos»)
Proporcione firmas de funciones claras en los problemas de código
Incluya casos extremos en las entradas de prueba (cero, números negativos, entradas vacías)
Formatee las expresiones matemáticas de forma coherente en las respuestas de referencia
Pruebe su función de recompensa con datos de muestra antes de implementarla

Creando tu función de recompensa

ARN Lambda

Debe consultar el siguiente formato para el ARN de Lambda:


"arn:aws:lambda:*:*:function:*SageMaker*"

Si la Lambda no tiene este esquema de nombres, el trabajo fallará y mostrará este error:


[ERROR] Unexpected error: lambda_arn must contain one of: ['SageMaker', 'sagemaker', 'Sagemaker'] when running on SMHP platform (Key: lambda_arn)

Estructura de la función Lambda

La función Lambda recibe lotes de resultados del modelo y devuelve las puntuaciones de recompensa. A continuación se muestra un ejemplo de implementación:


from typing import List, Any
import json
import re
from dataclasses import asdict, dataclass


@dataclass
class MetricResult:
    """Individual metric result."""
    name: str
    value: float
    type: str


@dataclass
class RewardOutput:
    """Reward service output."""
    id: str
    aggregate_reward_score: float
    metrics_list: List[MetricResult]


def lambda_handler(event, context):
    """ Main lambda handler """
    return lambda_grader(event)


def lambda_grader(samples: list[dict]) -> list[dict]:
    """ Core grader function """
    scores: List[RewardOutput] = []
    
    for sample in samples:
        print("Sample: ", json.dumps(sample, indent=2))
        
        # Extract components
        idx = sample.get("id", "no id")
        if not idx or idx == "no id":
            print(f"ID is None/empty for sample: {sample}")
            
        ground_truth = sample.get("reference_answer")
        
        if "messages" not in sample:
            print(f"Messages is None/empty for id: {idx}")
            continue
        
        if ground_truth is None:
            print(f"No answer found in ground truth for id: {idx}")
            continue
        
        # Get model's response (last turn is assistant turn)
        last_message = sample["messages"][-1]
        
        if last_message["role"] != "nova_assistant":
            print(f"Last message is not from assistant for id: {idx}")
            continue
            
        if "content" not in last_message:
            print(f"Completion text is empty for id: {idx}")
            continue
            
        model_text = last_message["content"]

        # --- Actual scoring logic (lexical overlap) ---
        ground_truth_text = _extract_ground_truth_text(ground_truth)
        
        # Calculate main score and individual metrics
        overlap_score = _lexical_overlap_score(model_text, ground_truth_text)
        
        # Create two separate metrics as in the first implementation
        accuracy_score = overlap_score  # Use overlap as accuracy
        fluency_score = _calculate_fluency(model_text)  # New function for fluency
        
        # Create individual metrics
        metrics_list = [
            MetricResult(name="accuracy", value=accuracy_score, type="Metric"),
            MetricResult(name="fluency", value=fluency_score, type="Reward")
        ]
        
        ro = RewardOutput(
            id=idx, 
            aggregate_reward_score=overlap_score,
            metrics_list=metrics_list
        )
        
        print(f"Response for id: {idx} is {ro}")
        scores.append(ro)

    # Convert to dict format
    result = []
    for score in scores:
        result.append({
            "id": score.id,
            "aggregate_reward_score": score.aggregate_reward_score,
            "metrics_list": [asdict(metric) for metric in score.metrics_list]
        })
    
    return result


def _extract_ground_truth_text(ground_truth: Any) -> str:
    """
    Turn the `ground_truth` field into a plain string.
    """
    if isinstance(ground_truth, str):
        return ground_truth

    if isinstance(ground_truth, dict):
        # Common patterns: { "explanation": "...", "answer": "..." }
        if "explanation" in ground_truth and isinstance(ground_truth["explanation"], str):
            return ground_truth["explanation"]
        if "answer" in ground_truth and isinstance(ground_truth["answer"], str):
            return ground_truth["answer"]
        # Fallback: stringify the whole dict
        return json.dumps(ground_truth, ensure_ascii=False)

    # Fallback: stringify anything else
    return str(ground_truth)


def _tokenize(text: str) -> List[str]:
    # Very simple tokenizer: lowercase + alphanumeric word chunks
    return re.findall(r"\w+", text.lower())


def _lexical_overlap_score(model_text: str, ground_truth_text: str) -> float:
    """
    Simple lexical overlap score in [0, 1]:
      score = |tokens(model) ∩ tokens(gt)| / |tokens(gt)|
    """
    gt_tokens = _tokenize(ground_truth_text)
    model_tokens = _tokenize(model_text)

    if not gt_tokens:
        return 0.0

    gt_set = set(gt_tokens)
    model_set = set(model_tokens)
    common = gt_set & model_set

    return len(common) / len(gt_set)


def _calculate_fluency(text: str) -> float:
    """
    Calculate a simple fluency score based on:
    - Average word length
    - Text length
    - Sentence structure
    
    Returns a score between 0 and 1.
    """
    # Simple implementation - could be enhanced with more sophisticated NLP
    words = _tokenize(text)
    
    if not words:
        return 0.0
    
    # Average word length normalized to [0,1] range
    # Assumption: average English word is ~5 chars, so normalize around that
    avg_word_len = sum(len(word) for word in words) / len(words)
    word_len_score = min(avg_word_len / 10, 1.0)
    
    # Text length score - favor reasonable length responses
    ideal_length = 100  # words
    length_score = min(len(words) / ideal_length, 1.0)
    
    # Simple sentence structure check (periods, question marks, etc.)
    sentence_count = len(re.findall(r'[.!?]+', text)) + 1
    sentence_ratio = min(sentence_count / (len(words) / 15), 1.0)
    
    # Combine scores
    fluency_score = (word_len_score + length_score + sentence_ratio) / 3
    
    return fluency_score

Formato de solicitud Lambda

La función Lambda recibe datos en este formato:


[
  {
    "id": "sample-001",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "text",
            "text": "Do you have a dedicated security team?"
          }
        ]
      },
      {
        "role": "nova_assistant",
        "content": [
          {
            "type": "text",
            "text": "As an AI developed by Company, I don't have a dedicated security team in the traditional sense. However, the development and deployment of AI systems like me involve extensive security measures, including data encryption, user privacy protection, and other safeguards to ensure safe and responsible use."
          }
        ]
      }
    ],
    "reference_answer": {
      "compliant": "No",
      "explanation": "As an AI developed by Company, I do not have a traditional security team. However, the deployment involves stringent safety measures, such as encryption and privacy safeguards."
    }
  }
]

nota

La estructura del mensaje incluye la content matriz anidada, que coincide con el formato de datos de entrada. El último mensaje con la función nova_assistant contiene la respuesta generada por el modelo.

Formato de respuesta Lambda

La función Lambda debe devolver datos en este formato:


[
  {
    "id": "sample-001",
    "aggregate_reward_score": 0.75,
    "metrics_list": [
      {
        "name": "accuracy",
        "value": 0.85,
        "type": "Metric"
      },
      {
        "name": "fluency",
        "value": 0.90,
        "type": "Reward"
      }
    ]
  }
]

Campos de respuesta:

id: Debe coincidir con el ID de muestra introducido
aggregate_reward_score: Puntuación general (normalmente de 0,0 a 1,0)
metrics_list: Conjunto de métricas individuales con:
- name: identificador métrico (por ejemplo, «precisión», «fluidez»)
- value: puntuación métrica (normalmente de 0,0 a 1,0)
- type: «Métrica» (para informar) o «Recompensa» (utilizada en el entrenamiento)

Permisos de IAM

Permisos necesarios

Su función de ejecución de SageMaker IA debe tener permisos para invocar la función Lambda. Añada esta política a su función de ejecución de SageMaker IA:


{
  "Version": "2012-10-17",		 	 	 
  "Statement": [
    {
      "Effect": "Allow",
      "Action": [
        "lambda:InvokeFunction"
      ],
      "Resource": "arn:aws:lambda:region:account-id:function:function-name"
    }
  ]
}

Rol de ejecución de Lambda

La función de ejecución de la función Lambda necesita permisos básicos de ejecución de Lambda:


{
  "Version": "2012-10-17",		 	 	 
  "Statement": [
    {
      "Effect": "Allow",
      "Action": [
        "logs:CreateLogGroup",
        "logs:CreateLogStream",
        "logs:PutLogEvents"
      ],
      "Resource": "arn:aws:logs:*:*:*"
    }
  ]
}

Permisos adicionales: si la función de Lambda accede a otros AWS servicios (por ejemplo, Amazon S3 para los datos de referencia o DynamoDB para el registro), añada esos permisos a la función de ejecución de Lambda.

Ejecutar el trabajo de evaluación

Prepara tus datos
- Formatee los datos de evaluación de acuerdo con los requisitos de formato de datos
- Cargue el archivo JSONL en Amazon S3: s3://your-bucket/eval-data/eval_data.jsonl
Configure su receta

Actualice la receta de muestra con su configuración:
- model_name_or_pathConfigúrelo a la ubicación de su modelo
- lambda_arnConfigúrelo a su función de recompensa ARN
- output_s3_pathAjústelo a la ubicación de salida que desee
- Ajuste inference los parámetros según sea necesario
Guarde la receta como rft_eval_recipe.yaml
Ejecute la evaluación

Ejecute el trabajo de evaluación con el cuaderno suministrado: cuaderno de evaluación modelo Nova
Supervise el progreso

Supervise su trabajo de evaluación mediante:
- SageMaker Consola de IA: compruebe el estado y los registros del trabajo
- CloudWatch Registros: vea los registros de ejecución detallados
- Registros Lambda: Depurar problemas con la función de recompensa

Entender los resultados de la evaluación

Formato de salida

El trabajo de evaluación envía los resultados a la ubicación de Amazon S3 especificada en formato JSONL. Cada línea contiene los resultados de la evaluación de una muestra:


{
  "id": "sample-001",
  "aggregate_reward_score": 0.75,
  "metrics_list": [
    {
      "name": "accuracy",
      "value": 0.85,
      "type": "Metric"
    },
    {
      "name": "fluency",
      "value": 0.90,
      "type": "Reward"
    }
  ]
}

nota

El resultado del trabajo de evaluación de RFT es idéntico al formato de respuesta Lambda. El servicio de evaluación analiza la respuesta de la función Lambda sin modificaciones, lo que garantiza la coherencia entre los cálculos de recompensas y los resultados finales.

Interpretación de los resultados

Puntuación total de recompensas:

Rango: normalmente de 0.0 (peor) a 1.0 (mejor), pero depende de la implementación
Propósito: Un solo número que resume el rendimiento general
Uso: comparar modelos, realizar un seguimiento de las mejoras con respecto al entrenamiento

Métricas individuales:

Tipo de métrica: métricas informativas para el análisis
Tipo de recompensa: métricas utilizadas durante el entrenamiento de RFT
Interpretación: Los valores más altos generalmente indican un mejor rendimiento (a menos que diseñe métricas inversas)

Puntos de referencia de rendimiento

Lo que constituye un rendimiento «bueno» depende del caso de uso:

Rango de puntuación	Interpretación	Action
0.8 - 1.0	Excelente	Modelo listo para su despliegue
0,6 - 0,8	Buena	Las mejoras menores pueden ser beneficiosas
0,4 - 0,6	Regular	Se necesita una mejora significativa
0.0 - 0.4	Pobre	Revise los datos de entrenamiento y la función de recompensa

importante

Estas son pautas generales. Defina sus propios umbrales en función de los requisitos empresariales, el rendimiento básico del modelo, las restricciones específicas del dominio y el análisis costo-beneficio de la formación continua.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Acceso y análisis de los resultados de la evaluación

Entrenamiento iterativo