Conozca las opciones para evaluar modelos de lenguaje grande con SageMaker Clarify - Amazon SageMaker AI

Conozca las opciones para evaluar modelos de lenguaje grande con SageMaker Clarify

importante

Para poder utilizar las evaluaciones de modelos fundacionales de SageMaker Clarify, debe actualizarse a la nueva experiencia de Studio. A partir del 30 de noviembre de 2023, la experiencia anterior de Amazon SageMaker Studio pasa a denominarse Amazon SageMaker Studio Classic. La característica de evaluación fundacional solo se puede utilizar en la experiencia actualizada. Para obtener más información sobre cómo actualizar Studio, consulte Migración desde Amazon SageMaker Studio Classic. Para obtener más información sobre el uso de la aplicación de Studio Classic, consulte Amazon SageMaker Studio Classic.

Con Amazon SageMaker Clarify, puede evaluar modelos de lenguaje grandes (LLM) mediante la creación de trabajos de evaluación del modelo. Un trabajo de evaluación del modelo le permite evaluar y comparar las métricas de calidad y responsabilidad del modelo para los modelos fundacionales basados en texto de JumpStart. Los trabajos de evaluación del modelo también admiten el uso de modelos de JumpStart que ya se han implementado en un punto de conexión.

Puede crear un trabajo de evaluación del modelo mediante tres enfoques diferentes.

  • Crear trabajos automatizados de evaluación del modelo en Studio: los trabajos de evaluación del modelo automáticos permiten evaluar rápidamente la capacidad de un modelo para realizar una tarea. Puede proporcionar su propio conjunto de datos de peticiones personalizado que haya adaptado a un caso de uso específico, o puede usar un conjunto de datos integrado disponible.

  • Crear trabajos de evaluación del modelos que recurren a trabajadores humanos en Studio: los trabajos de evaluación del modelo que recurren a trabajadores humanos le permiten incorporar la perspectiva humana al proceso de evaluación del modelo. Puede tratarse de trabajadores de su empresa o un grupo de expertos en áreas específicas de su sector.

  • Crear un trabajo de evaluación del modelo automatizado con la biblioteca fmeval: crear un trabajo con fmeval le proporciona un control más preciso sobre los trabajos de evaluación del modelo. También admite el uso de LLM que no son de AWS o no estén basados en JumpStart desde otros servicios.

Los trabajos de evaluación del modelo admiten los casos de uso habituales de LLM, como la generación de textos, la clasificación de textos, las preguntas y respuestas y el resumen de textos.

  • Generación abierta: producción de respuestas humanas naturales en un texto que no tiene una estructura predefinida.

  • Resumen de texto: generación de un resumen conciso y condensado, conservando el significado y la información clave que contiene un texto más grande.

  • Respuesta a preguntas: generación de una respuesta relevante y precisa a una petición.

  • Clasificación: asignación de una categoría, como una etiqueta o una puntuación, al texto en función de su contenido.

En los temas siguientes, se describen las tareas de evaluación de modelos disponibles y los tipos de métricas que puede utilizar. También se describen los conjuntos de datos integrados disponibles y cómo especificar su propio conjunto de datos.