Évaluation d’un modèle de fondation de génération de texte dans Studio - Amazon SageMaker AI

Évaluation d’un modèle de fondation de génération de texte dans Studio

Note

Les évaluations de modèles de fondation (FMEval) sont en version préliminaire pour Amazon SageMaker Clarify et peuvent encore évoluer.

Important

Pour utiliser les évaluations de modèles de fondation SageMaker Clarify, vous devez effectuer une mise à niveau vers la nouvelle expérience Studio. Depuis le 30 novembre 2023, l’expérience Amazon SageMaker Studio précédente s’appelle désormais Amazon SageMaker Studio Classic. La caractéristique d’évaluation des modèles de fondation ne peut être utilisée que dans l’expérience mise à jour. Pour en savoir plus sur la façon de mettre à jour Studio, consultez Migration depuis Amazon SageMaker Studio Classic. Pour en savoir plus sur l’utilisation de l’application Studio Classic, consultez Amazon SageMaker Studio Classic.

Amazon SageMaker JumpStart est intégré aux évaluations de modèles de fondation (FMEval) SageMaker Clarify dans Studio. Si un modèle JumpStart possède des capacités d’évaluation intégrées, vous pouvez choisir Évaluer dans le coin supérieur droit de la page des détails du modèle dans l’interface utilisateur JumpStart Studio. Pour plus d’informations sur la navigation dans l’interface utilisateur JumpStart Studio, consultez Ouverture et utilisation de JumpStart dans Studio.

Utilisez Amazon SageMaker JumpStart pour évaluer des modèles de fondation basés sur du texte avec FMEval. Vous pouvez utiliser ces évaluations de modèles pour comparer les indicateurs de qualité et de responsabilité d’un modèle, entre deux modèles ou entre différentes versions du même modèle, afin de vous aider à quantifier les risques du modèle. FMEval peut évaluer des modèles basés sur le texte qui effectuent les tâches suivantes :

  • Génération ouverte : production de réponses humaines naturelles à un texte qui n’a pas de structure prédéfinie.

  • Synthétisation de texte : génération d’un récapitulatif concis et condensé tout en conservant le sens et les informations clés contenus dans un texte plus long.

  • Réponse à une question : génération d’une réponse en langage naturel à une question.

  • Classification : attribution d’une classe, par exemple positive plutôt que negative, à un passage de texte en fonction de son contenu.

Vous pouvez utiliser FMEval pour évaluer automatiquement les réponses du modèle en fonction de points de référence spécifiques. Vous pouvez également évaluer les réponses du modèle par rapport à vos propres critères en apportant vos propres jeux de données d’invites. FMEval fournit une interface utilisateur (UI) qui vous guide tout au long de l’installation et de la configuration d’une tâche d’évaluation. Vous pouvez également utiliser la bibliothèque FMEval dans votre propre code.

Chaque évaluation nécessite un quota pour deux instances :

  • Instance d’hébergement : instance qui héberge et déploie un LLM.

  • Instance d’évaluation : instance utilisée pour effectuer les invites et une évaluation d’un LLM sur l’instance d’hébergement.

Si votre LLM est déjà déployé, indiquez le point de terminaison, et SageMaker AI utilisera votre instance d’hébergement pour héberger et déployer le LLM.

Si vous évaluez un modèle JumpStart qui n’est pas encore déployé sur votre compte, FMEval crée une instance d’hébergement temporaire pour vous dans votre compte et la maintient déployée uniquement pendant la durée de votre évaluation. FMEval utilise comme instance d’hébergement l’instance par défaut recommandée par JumpStart pour le LLM choisi. Vous devez disposer d’un quota suffisant pour cette instance recommandée.

Chaque évaluation utilise également une instance d’évaluation pour fournir les invites et évaluer les réponses du LLM. Vous devez également disposer d’un quota et d’une mémoire suffisants pour exécuter les algorithmes d’évaluation. Les exigences en termes de quota et de mémoire de l’instance d’évaluation sont généralement inférieures à celles requises pour une instance d’hébergement. Nous vous recommandons de sélectionner l’instance ml.m5.2xlarge. Pour plus d’informations sur les quotas et la mémoire, consultez Résolution d’erreurs lors de la création d’une tâche d’évaluation de modèles dans Amazon SageMaker AI.

Les évaluations automatiques peuvent être utilisées pour évaluer les LLM selon les catégories suivantes :

  • Précision : pour la synthétisation de texte, la réponse aux questions et la classification de texte

  • Robustesse sémantique : pour les tâches de génération ouverte, de synthétisation de texte et de classification de texte

  • Connaissances factuelles : pour la génération ouverte

  • Stéréotypage d’invite : pour la génération ouverte

  • Toxicité : pour la génération ouverte, la synthétisation de texte et la réponse aux questions

Vous pouvez également utiliser des évaluations humaines afin d’évaluer manuellement les réponses du modèle. L’interface utilisateur FMEval vous guide tout au long d’un flux de travail consistant à sélectionner un ou plusieurs modèles, à provisionner des ressources, à rédiger des instructions et à contacter votre personnel humain. Une fois l’évaluation humaine terminée, les résultats sont affichés dans FMEval.

Vous pouvez accéder à l’évaluation des modèles via la page d’accueil JumpStart dans Studio, en sélectionnant un modèle à évaluer, puis en choisissant Évaluer. Notez que les capacités d’évaluation ne sont pas disponibles pour tous les modèles JumpStart. Pour plus d’informations sur la configuration, le provisionnement et l’exécution de FMEval, consultez Que sont les évaluations des modèles de fondation ?