Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Prise en main des évaluations de modèles
Un grand modèle de langage (LLM) est un modèle de machine learning capable d’analyser et de générer du texte en langage naturel. Si vous souhaitez évaluer un LLM, SageMaker AI propose les trois options suivantes que vous pouvez choisir :
-
Configurer des évaluations manuelles pour un personnel humain à l’aide de Studio.
-
Évaluer votre modèle à l’aide d’un algorithme utilisant Studio.
-
Évaluer automatiquement votre modèle à l’aide d’un flux de travail personnalisé à l’aide de la bibliothèque
fmeval.
Vous pouvez utiliser un algorithme pour évaluer automatiquement votre modèle de fondation ou demander à une équipe d’employés humains d’évaluer les réponses des modèles.
Les équipes d’employés humains peuvent évaluer et comparer jusqu’à deux modèles simultanément à l’aide de métriques indiquant la préférence pour une réponse par rapport à une autre. Le flux de travail, les métriques et les instructions pour une évaluation humaine peuvent être adaptés à un cas d’utilisation particulier. Les humains peuvent également fournir une évaluation plus fine qu’une évaluation algorithmique.
Vous pouvez également utiliser un algorithme pour évaluer votre LLM à l’aide de points de référence afin de noter rapidement les réponses de vos modèles dans Studio. Studio fournit un flux de travail guidé pour évaluer les réponses d'un JumpStart modèle à l'aide de métriques prédéfinies. Ces métriques sont spécifiques aux tâches d’IA générative. Ce flux guidé utilise des jeux de données intégrés ou personnalisés pour évaluer votre LLM.
Vous pouvez également utiliser la bibliothèque fmeval pour créer un flux de travail plus personnalisé à l’aide d’évaluations automatiques que ce qui est disponible dans Studio. À l'aide Python du code et de la fmeval bibliothèque, vous pouvez évaluer n'importe quel LLM basé sur du texte, y compris les modèles créés en dehors de. JumpStart
Les rubriques suivantes fournissent une vue d'ensemble des évaluations du modèle de base, un résumé des flux de travail automatiques et humains de l'évaluation du modèle de fondation (FMEval), comment les exécuter et comment consulter un rapport d'analyse de vos résultats. La rubrique sur l’évaluation automatique explique comment configurer et exécuter à la fois une évaluation initiale et une évaluation personnalisée.
Rubriques