Comprendre les options d'évaluation de grands modèles linguistiques avec SageMaker Clarify - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Comprendre les options d'évaluation de grands modèles linguistiques avec SageMaker Clarify

Important

Pour utiliser les évaluations du modèle SageMaker Clarify Foundation, vous devez passer à la nouvelle expérience Studio. Depuis le 30 novembre 2023, l'expérience Amazon SageMaker Studio précédente s'appelle désormais Amazon SageMaker Studio Classic. La caractéristique d’évaluation des modèles de fondation ne peut être utilisée que dans l’expérience mise à jour. Pour en savoir plus sur la façon de mettre à jour Studio, consultez Migration depuis Amazon SageMaker Studio Classic. Pour en savoir plus sur l’utilisation de l’application Studio Classic, consultez Amazon SageMaker Studio classique.

À l'aide d'Amazon SageMaker Clarify, vous pouvez évaluer de grands modèles linguistiques (LLMs) en créant des tâches d'évaluation de modèles. Une tâche d'évaluation de modèles vous permet d'évaluer et de comparer les indicateurs de qualité et de responsabilité des modèles de base basés sur du texte à partir de. JumpStart Les tâches d'évaluation de JumpStart modèles prennent également en charge l'utilisation de modèles déjà déployés sur un terminal.

Vous pouvez créer une tâche d’évaluation des modèles via trois approches différentes.

  • Création de tâches d’évaluation automatique de modèles : les tâches d’évaluation automatique de modèles vous permettent d’évaluer rapidement la capacité d’un modèle à effectuer une tâche. Vous pouvez soit fournir votre propre jeu de données d’invite personnalisé que vous avez pensé pour un cas d’utilisation spécifique, soit utiliser un jeu de données intégré mis à disposition.

  • Création de tâches d’évaluation de modèle faisant appel à des employés humains dans Studio : les tâches d’évaluation des modèles qui font appel à des employés humains vous permettent d’apporter une contribution humaine au processus d’évaluation des modèles. Il peut s’agir d’employés de votre entreprise ou d’un groupe d’experts, spécialistes de votre secteur d’activité.

  • Création d’une tâche d’évaluation de modèles automatisée à l’aide de la bibliothèque fmeval : la création d’une tâche à l’aide de fmeval vous permet de contrôler le plus précisément possible vos tâches d’évaluation de modèles. Il prend également en charge l'utilisation de modèles LLMs externes AWS ou non JumpStart basés provenant d'autres services.

Les tâches d'évaluation de modèles prennent en charge les cas d'utilisation courants LLMs tels que la génération de texte, la classification de texte, les questions et réponses et la synthèse de texte.

  • Génération ouverte : production de réponses humaines naturelles à un texte qui n’a pas de structure prédéfinie.

  • Synthétisation de texte : génération d’un résumé concis et condensé qui conserve le sens et les informations clés contenus dans un texte plus grand.

  • Réponse aux questions : génération d’une réponse pertinente et précise à une invite.

  • Classification : attribution d’une catégorie, telle qu’une étiquette ou un score, à un texte en fonction de son contenu.

Les rubriques suivantes décrivent les tâches d’évaluation de modèle disponibles, ainsi que les types de métriques que vous pouvez utiliser. Vous y trouverez également une description des jeux de données intégrés mis à disposition et la procédure à suivre pour spécifier votre propre jeu de données.