Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Création d’une tâche d’évaluation de modèles faisant appel à des employés humains
Important
Les politiques IAM personnalisées qui permettent à Amazon SageMaker Studio ou Amazon SageMaker Studio Classic de créer des SageMaker ressources Amazon doivent également accorder des autorisations pour ajouter des balises à ces ressources. L’autorisation d’ajouter des balises aux ressources est requise, car Studio et Studio Classic balisent automatiquement toutes les ressources qu’ils créent. Si une politique IAM autorise Studio et Studio Classic à créer des ressources mais n'autorise pas le balisage, des erreurs « AccessDenied » peuvent se produire lors de la tentative de création de ressources. Pour de plus amples informations, veuillez consulter Fournir des autorisations pour le balisage des ressources d' SageMaker IA.
AWSpolitiques gérées pour Amazon SageMaker AIqui donnent des autorisations pour créer des SageMaker ressources incluent déjà des autorisations pour ajouter des balises lors de la création de ces ressources.
Pour créer une tâche d’évaluation de modèles faisant appel à des employés humains, vous devez configurer votre environnement de manière à disposer des autorisations correctes. Vous pouvez ensuite utiliser l’assistant de tâche d’évaluation de modèles dans Studio pour sélectionner les modèles que vous souhaitez utiliser, puis définir les paramètres et le personnel que vous souhaitez utiliser dans la tâche d’évaluation de modèles.
Lorsque le travail est terminé, vous pouvez consulter un rapport pour comprendre comment votre personnel a évalué les modèles que vous avez sélectionnés. Les résultats sont également enregistrés dans Amazon S3 sous forme de fichier de sortie jsonlines.
Dans un travail d'évaluation de modèles qui fait appel à des travailleurs humains, vous avez la possibilité d'importer des données d'inférence provenant de modèles hébergés en dehors de l' SageMaker IA et de modèles hébergés en dehors deAWS. Pour en savoir plus, veuillez consulter la section Utilisation de vos propres données d’inférence dans les tâches d’évaluation de modèles faisant appel à des employés humains.
Lorsque vos tâches sont terminées, les résultats sont enregistrés dans le compartiment Amazon S3 spécifié lors de la création de la tâche. Pour savoir comment interpréter vos résultats, consultez Analyse des résultats de votre tâche d’évaluation de modèles.
Conditions préalables
Pour exécuter une évaluation de modèle dans l'interface utilisateur d'Amazon SageMaker Studio, votre rôle Gestion des identités et des accès AWS (IAM) et tous les ensembles de données d'entrée doivent disposer des autorisations appropriées. Si vous n'avez pas de rôle SageMaker AI Domain ou IAM, suivez les étapes décrites dansGuide de configuration d'Amazon SageMaker AI.
Configuration de vos autorisations
La section suivante vous indique comment créer un compartiment Amazon S3 et comment spécifier les autorisations de partage des ressources cross-origin (CORS) correctes.
Pour créer un compartiment Amazon S3 et spécifier les autorisations CORS
Ouvrez la console Amazon SageMaker AI à l'adresse https://console.aws.amazon.com/sagemaker/
. -
Dans le volet de navigation, entrez
S3dans la barre de recherche en haut de la page. -
Choisissez S3 sous Services.
-
Choisissez Compartiments dans le volet de navigation.
-
Dans la section Compartiments à usage général, sous Nom, choisissez le nom du compartiment S3 que vous souhaitez utiliser pour stocker les entrées et sorties de votre modèle dans la console. Si vous n’avez pas de compartiment S3, procédez comme suit.
-
Sélectionnez Créer un compartiment pour ouvrir une nouvelle page Créer un compartiment.
-
Dans la section Configuration générale, sous Région AWS, sélectionnez la région AWS où se trouve votre modèle de fondation.
-
Nommez votre compartiment S3 dans la zone de saisie, sous Nom du compartiment.
-
Acceptez tous les choix par défaut.
-
Sélectionnez Créer un compartiment.
-
Dans la section Compartiments à usage général, sous Nom, sélectionnez le nom du compartiment S3 que vous avez créé.
-
-
Sélectionnez l’onglet Autorisations.
-
Faites défiler l’affichage jusqu’à la section Partage des ressources entre origines (CORS) en bas de la fenêtre. Choisissez Modifier.
-
Voici la politique CORS minimale requise que vous devez ajouter à votre compartiment Amazon S3. Copiez et collez ce qui suit dans la zone de saisie.
[ { "AllowedHeaders": ["*"], "AllowedMethods": [ "GET", "HEAD", "PUT" ], "AllowedOrigins": [ "*" ], "ExposeHeaders": [ "Access-Control-Allow-Origin" ], "MaxAgeSeconds": 3000 } ] -
Sélectionnez Enregistrer les modifications.
Pour ajouter des autorisations à votre politique IAM
Vous souhaiterez peut-être prendre en compte le niveau d’autorisations à attacher à votre rôle IAM.
-
Vous pouvez créer une politique IAM personnalisée qui autorise les autorisations minimales requises adaptées à ce service.
-
Vous pouvez attacher les politiques
AmazonSageMakerFullAccessetAmazonS3FullAccessexistantes à votre rôle IAM existant, qui est plus permissif. Pour plus d'informations sur cetteAmazonSageMakerFullAccesspolitique, consultez AmazonSageMakerFullAccess.
Si vous souhaitez attacher les politiques existantes à votre rôle IAM, vous pouvez ignorer les instructions définies ici et continuer à suivre les instructions figurant sous Pour ajouter des autorisations à votre rôle IAM.
Les instructions suivantes créent une politique IAM personnalisée adaptée à ce service avec un minimum d’autorisations.
Ouvrez la console Amazon SageMaker AI à l'adresse https://console.aws.amazon.com/sagemaker/
. -
Dans la barre de recherche en haut de la page, entrez
IAM. -
Sous Services, sélectionnez Identity and Access Management (IAM).
-
Choisissez Politiques dans le volet de navigation.
-
Choisissez Create Policy (Créer une politique). Quand l’Éditeur de politique s’ouvre, choisissez JSON.
-
Assurez-vous que les autorisations suivantes apparaissent dans l’Éditeur de politique. Vous pouvez également copier et coller ce qui suit dans l’Éditeur de politique.
-
Choisissez Suivant.
-
Entrez un nom de politique dans la section Détails de la politique, sous Nom de la politique. Vous pouvez également saisir une description facultative. Vous rechercherez ce nom de politique lorsque vous l’attribuerez à un rôle.
-
Choisissez Create Policy (Créer une politique).
Pour ajouter des autorisations à votre rôle IAM
Ouvrez la console Amazon SageMaker AI à l'adresse https://console.aws.amazon.com/sagemaker/
. -
Dans la barre de recherche en haut de la page, entrez
IAM. -
Sous Services, sélectionnez Identity and Access Management (IAM).
-
Choisissez Rôles dans le panneau de navigation.
-
Si vous créez un nouveau rôle :
-
Choisissez Créer un rôle.
-
Dans l’étape Sélectionner une entité de confiance, sous Type d’entité approuvée, choisissez Politique d’approbation personnalisée.
-
Dans l’éditeur de politique d’approbation personnalisée, à côté de Ajouter un principal, choisissez Ajouter.
-
Dans la fenêtre contextuelle Ajouter un principal, sous Type de principal, sélectionnez Services AWS dans la liste déroulante des options.
-
Sous ARN, remplacez
{ServiceName}parsagemaker. -
Choisissez Ajouter un principal.
-
Choisissez Suivant.
-
(Facultatif) Sous Politiques des autorisations, sélectionnez les politiques que vous souhaitez ajouter à votre rôle.
-
(Facultatif) Sous Définir une limite d’autorisations – facultatif, choisissez votre paramètre de limite d’autorisations.
-
Choisissez Suivant.
-
Dans l’étape Nommer, vérifier et créer, sous Détails du rôle, spécifiez vos Nom du rôle et Description.
-
(Facultatif) Sous Ajouter des balises – facultatif, vous pouvez ajouter des balises en choisissant Ajouter une nouvelle balise et en saisissant une paire Clé et Valeur – facultatif.
-
Vérifiez vos paramètres.
-
Choisissez Créer un rôle.
-
-
Si vous ajoutez la politique à un rôle existant :
-
Sélectionnez le nom du rôle sous Nom du rôle. La fenêtre principale change pour afficher les informations relatives à votre rôle.
-
Dans la section Politiques d’autorisations, choisissez la flèche vers le bas en regard de Ajouter des autorisations.
-
Parmi les options qui s’affichent, choisissez Attacher des politiques.
-
Dans la liste des politiques qui s’affichent, recherchez et sélectionnez la politique que vous avez créée sous Pour ajouter des autorisations à votre politique IAM et cochez la case à côté du nom de votre politique. Si vous n’avez pas créé de politique IAM personnalisée, recherchez et cochez les cases situées à côté des politiques
AmazonSageMakerFullAccessetAmazonS3FullAccessfournies par AWS. Vous souhaiterez peut-être prendre en compte le niveau d’autorisations à attacher à votre rôle IAM. Les instructions relatives à la politique IAM personnalisée sont moins permissives, tandis que les autres sont plus permissives. Pour plus d'informations sur cetteAmazonSageMakerFullAccesspolitique, consultez AmazonSageMakerFullAccess. -
Choisissez Ajouter des autorisations. Une bannière en haut de la page doit indiquer La stratégie a été attachée au rôle une fois terminé.
-
Pour ajouter une politique d’approbation à votre rôle IAM
La politique de confiance suivante permet aux administrateurs d'autoriser l' SageMaker IA à assumer ce rôle. Vous devez ajouter cette politique à votre rôle IAM. Pour cela, utilisez la procédure suivante :
Ouvrez la console Amazon SageMaker AI à l'adresse https://console.aws.amazon.com/sagemaker/
. -
Dans la barre de recherche en haut de la page, entrez
IAM. -
Sous Services, sélectionnez Identity and Access Management (IAM).
-
Choisissez Rôles dans le panneau de navigation.
-
Sélectionnez le nom du rôle sous Nom du rôle. La fenêtre principale change pour afficher les informations relatives à votre rôle.
-
Choisissez l’onglet Relation d’approbation.
-
Choisissez Modifier la politique d’approbation.
-
Assurez-vous que la politique suivante apparaît sous Modifier la politique d’approbation. Vous pouvez également copier et coller ce qui suit dans l’éditeur.
-
Choisissez Mettre à jour une politique. Une bannière en haut de la page doit indiquer Politique d’approbation mise à jour une fois terminé.
Vous pouvez créer une tâche d'évaluation humaine à l'aide d'un modèle textuel disponible dans JumpStart ou vous pouvez utiliser un JumpStart modèle que vous avez précédemment déployé sur un terminal.
Pour lancer JumpStart
Ouvrez la console Amazon SageMaker AI à l'adresse https://console.aws.amazon.com/sagemaker/
. -
Dans la barre de recherche en haut de la page, entrez
SageMaker AI. -
Sous Services, sélectionnez Amazon SageMaker AI.
-
Choisissez Studio dans le volet de navigation.
-
Choisissez votre domaine dans la section Mise en route, après avoir développé la flèche vers le bas sous Sélectionner un domaine.
-
Choisissez votre profil utilisateur dans la section Mise en route, après avoir développé la flèche vers le bas sous Sélectionner un profil utilisateur.
-
Choisissez Ouvrir Studio pour ouvrir la page de destination de Studio.
-
Choisissez Tâches dans le volet de navigation.
Pour configurer une tâche d’évaluation
-
Sur la page d’accueil d’évaluation de modèles, choisissez Évaluer un modèle.
-
Spécifiez les détails des tâches.
-
Entrez le nom de l’évaluation de votre évaluation de modèles. Ce nom vous permet d’identifier votre tâche d’évaluation de modèles une fois qu’elle a été soumise.
-
Entrez une description pour ajouter plus de contexte au nom.
-
Choisissez Suivant.
-
-
Configurez l’évaluation.
-
Sous Choisir un type d’évaluation, sélectionnez la case d’option à côté de Humain.
-
Sous Choisissez le ou les modèles que vous souhaitez évaluer, choisissez Ajouter un modèle à l’évaluation. Vous pouvez évaluer jusqu’à deux modèles pour chaque évaluation.
-
Pour utiliser un modèle pré-entraîné, choisissez le JumpStart modèle de JumpStart base pré-entraîné. Si vous souhaitez utiliser un JumpStart modèle que vous avez précédemment déployé sur un point de terminaison, choisissez Endpoints with JumpStart foundation models.
-
Si le modèle nécessite un accord légal, cochez la case pour confirmer que vous êtes d’accord.
-
Si vous souhaitez ajouter un autre modèle, répétez l’étape précédente.
-
-
Pour modifier le comportement du modèle lors de l’inférence, choisissez Définir les paramètres.
Les paramètres définis contiennent une liste de paramètres d’inférence qui affectent le degré de hasard dans la sortie de votre modèle, la longueur de la sortie de votre modèle et les mots que le modèle choisira ensuite.
-
Sélectionnez ensuite un type de tâche. Vous pouvez sélectionner les éléments suivants :
-
Synthétisation de texte
-
Réponses aux questions (Q&R)
-
Classification du texte
-
Génération ouverte
-
Personnalisé
-
-
Dans la section Métriques d’évaluation, choisissez une dimension d’évaluation et entrez un contexte supplémentaire concernant la dimension dans la zone de texte sous Description. Vous pouvez choisir parmi les dimensions suivantes :
-
Fluidité : mesure la qualité linguistique d’un texte généré.
-
Cohérence : mesure l’organisation et la structure d’un texte généré.
-
Toxicité : mesure la nocivité d’un texte généré.
-
Exactitude : indique l’exactitude d’un texte généré.
-
Une dimension d’évaluation personnalisée dont vous pouvez définir le nom et la description pour votre équipe de travail.
Pour ajouter une dimension d’évaluation personnalisée, procédez comme suit :
-
Choisissez Ajouter une dimension d’évaluation.
-
Dans la zone de texte contenant Fournir une dimension d’évaluation, saisissez le nom de votre dimension personnalisée.
-
Dans la zone de texte contenant Fournir une description pour cette dimension d’évaluation, saisissez une description afin que votre équipe de travail comprenne comment évaluer votre dimension personnalisée.
-
Sous chacune de ces métriques se trouvent des métriques de création de rapports que vous pouvez choisir à l’aide de la flèche vers le bas Choisir un type de métrique. Si vous avez deux modèles à évaluer, vous pouvez choisir des métriques de création de rapports comparatives ou individuelles. Si vous avez un seul modèle à évaluer, vous pouvez choisir uniquement des métriques de création de rapports individuelles. Vous pouvez choisir les types de métriques de création de rapports suivants pour chacune des métriques ci-dessus.
-
(Comparatif) Échelle de Likert – comparaison : un évaluateur humain indiquera sa préférence entre deux réponses sur une échelle de Likert à 5 points, en fonction de vos instructions. Les résultats du rapport final se présentent sous la forme d’un histogramme des degrés de préférence établis par les évaluateurs pour l’ensemble du jeu de données. Définissez les points importants de l’échelle à 5 points dans vos instructions, de sorte que vos évaluateurs sachent comment évaluer les réponses en fonction de vos attentes. Dans la sortie JSON enregistrée dans Amazon S3, ce choix est représenté par
ComparisonLikertScalecorrespondant à la paire clé-valeur"evaluationResults":"ComparisonLikertScale". -
(Comparatif) Boutons de choix : permet à un évaluateur humain d’indiquer sa réponse préférée par rapport à une autre. Les évaluateurs indiquent leur préférence entre deux réponses, en fonction de vos instructions, via des cases d’option. Les résultats du rapport final se présentent sous la forme d’un pourcentage de réponses que les employés ont préférées pour chaque modèle. Expliquez clairement votre méthode d’évaluation dans vos instructions. Dans la sortie JSON enregistrée dans Amazon S3, ce choix est représenté par
ComparisonChoicecorrespondant à la paire clé-valeur"evaluationResults":"ComparisonChoice". -
(Comparatif) Classement ordinal : permet à un évaluateur humain de classer les réponses à une invite par ordre de préférence, en partant de
1, conformément à vos instructions. Les résultats du rapport final se présentent sous la forme d’un histogramme des classements des évaluateurs pour l’ensemble du jeu de données. Définissez la signification d’un classement de1dans vos instructions. Dans la sortie JSON enregistrée dans Amazon S3, ce choix est représenté parComparisonRankcorrespondant à la paire clé-valeur"evaluationResults":"ComparisonRank". -
(Individuel) Pouce vers le haut/vers le bas : permet à un évaluateur humain d’évaluer chaque réponse d’un modèle comme acceptable ou inacceptable, conformément à vos instructions. Les résultats du rapport final se présentent sous la forme d’un pourcentage du nombre total d’évaluations approuvées (pouce vers le haut) par les évaluateurs, pour chaque modèle. Vous pouvez utiliser cette méthode d’évaluation pour évaluer un ou plusieurs modèles. Si vous l’utilisez pour une évaluation qui compte deux modèles, un pouce vers le haut ou vers le bas sera présenté à votre équipe de travail pour chaque réponse de modèle et le rapport final affichera les résultats agrégés individuellement pour chaque modèle. Définissez ce qui est acceptable comme évaluation positive (pouce vers le haut) ou négative (pouce vers le bas) dans vos instructions. Dans la sortie JSON enregistrée dans Amazon S3, ce choix est représenté par
ThumbsUpDowncorrespondant à la paire clé-valeur"evaluationResults":"ThumbsUpDown". -
(Individuel) Échelle de Likert – individuelle : permet à un évaluateur humain d’indiquer dans quelle mesure il approuve la réponse du modèle, en fonction de vos instructions, sur une échelle de Likert à 5 points. Les résultats du rapport final se présentent sous la forme d’un histogramme des évaluations en 5 points établies par les évaluateurs pour l’ensemble du jeu de données. Vous pouvez utiliser cette échelle pour une évaluation comportant un ou plusieurs modèles. Si vous sélectionnez cette méthode d’évaluation pour une évaluation qui compte plusieurs modèles, une échelle de Likert en 5 points sera présentée à votre équipe de travail pour chaque réponse de modèle et le rapport final présentera les résultats agrégés individuellement pour chaque modèle. Définissez les points importants de l’échelle à 5 points dans vos instructions, de sorte que vos évaluateurs sachent comment évaluer les réponses en fonction de vos attentes. Dans la sortie JSON enregistrée dans Amazon S3, ce choix est représenté par
IndividualLikertScalecorrespondant à la paire clé-valeur"evaluationResults":"IndividualLikertScale".
-
-
Choisissez un jeu de données d’invite. Ce jeu de données d’invite est obligatoire et sera utilisé par votre équipe de travail humaine pour évaluer les réponses de votre modèle. Fournissez l’URI S3 d’un compartiment Amazon S3 qui contient votre jeu de données d’invite dans la zone de texte située sous l’URI S3 de votre fichier de jeu de données d’entrée. Votre jeu de données doit être au format
jsonlineset contenir les clés suivantes pour identifier les parties de votre jeu de données que l’interface utilisateur utilisera pour évaluer votre modèle :-
prompt: la demande pour laquelle vous souhaitez que votre modèle génère une réponse. -
(Facultatif)
category: étiquettes de catégorie pour votre invite. La clécategoryest utilisée pour classer vos invites afin que vous puissiez filtrer vos résultats d’évaluation ultérieurement par catégorie pour mieux comprendre les résultats de l’évaluation. Elle ne participe pas à l’évaluation elle-même et les employés ne la voient pas dans l’interface utilisateur de l’évaluation. -
(Facultatif)
referenceResponse: la réponse de référence pour vos évaluateurs humains. La réponse de référence n’est pas évaluée par vos employés, mais elle peut être utilisée pour comprendre quelles réponses sont acceptables ou inacceptables, en fonction de vos instructions. -
(Facultatif)
responses— Utilisé pour spécifier les inférences d'un modèle en dehors de l' SageMaker IA ou en dehors deAWS.Cet objet nécessite deux paires clé-valeur supplémentaires :
"modelIdentifier, une chaîne identifiant le modèle, et"text", qui constitue l’inférence du modèle.Si vous spécifiez une clé
"responses"dans une entrée quelconque du jeu de données d’invite personnalisé, elle doit être spécifiée dans toutes les entrées. -
L’exemple de code
jsonsuivant montre les paires clé-valeur acceptées dans un jeu de données d’invite personnalisé. La case à cocher Apporter votre propre inférence doit être cochée si une clé de réponse est fournie. Si elle est cochée, la cléresponsesdoit toujours être spécifiée dans chaque invite. L’exemple suivant pourrait être utilisé dans un scénario de questions-réponses.{ "prompt": { "text": "Aurillac is the capital of" }, "category": "Capitals", "referenceResponse": { "text": "Cantal" }, "responses": [ // All responses must come from a single model. If specified it must be present in all JSON objects. modelIdentifier and text are then also required. { "modelIdentifier":"meta-textgeneration-llama-codellama-7b", "text":"The capital of Aurillac is Cantal."} ] }
-
-
Entrez un emplacement de compartiment S3 où vous souhaitez enregistrer les résultats d’évaluation obtenus dans la zone de texte située sous Choisir un emplacement S3 pour enregistrer vos résultats d’évaluation. Le fichier de sortie écrit dans cet emplacement S3 sera au format
JSON, se terminant par l’extension,.json. -
Note
Si vous souhaitez inclure vos propres données d’inférence dans la tâche d’évaluation de modèles, vous ne pouvez utiliser qu’un seul modèle.
(Facultatif) Cochez la case située sous Apporter votre propre inférence pour indiquer que votre jeu de données d’invite contient la clé
responses. Si vous spécifiez la cléresponsesdans le cadre de toute invite, elle doit être présente dans chacune d’elles. -
Configurez votre processeur dans la section Configuration du processeur à l’aide des paramètres suivants :
-
Utilisez Nombre d’instances pour spécifier le nombre d’instances de calcul à utiliser pour exécuter votre modèle. Si vous utilisez plus de
1instance, votre modèle s’exécutera dans des instances parallèles. -
Utilisez le type d'instance pour choisir le type d'instance de calcul que vous souhaitez utiliser pour exécuter votre modèle. AWSpossède des instances de calcul générales et des instances optimisées pour le calcul et la mémoire. Pour plus d’informations sur les types d’instance, consultez Types d'instances disponibles pour une utilisation avec les blocs-notes Amazon SageMaker Studio Classic.
-
Si vous souhaitez que l' SageMaker IA utilise votre propre clé de chiffrement AWS Key Management Service (AWS KMS) au lieu de la clé de service AWS géré par défaut, sélectionnez Activé sous la clé Volume KMS, puis saisissez la AWS KMS clé. SageMaker L'IA utilisera votre AWS KMS clé pour chiffrer les données sur le volume de stockage. Pour plus d’informations sur les clés, consultez AWS Key Management Service.
-
Si vous souhaitez que l' SageMaker IA utilise votre propre clé de chiffrement AWS Key Management Service (AWS KMS) au lieu de la clé de service AWS géré par défaut, sélectionnez Activé sous Output KMS key et saisissez la AWS KMS clé. SageMaker L'IA utilisera votre AWS KMS clé pour chiffrer le résultat de la tâche de traitement.
-
Utilisez un rôle IAM pour spécifier l’accès et les autorisations pour le processeur par défaut. Entrez le rôle IAM que vous avez configuré dans la section Configurer votre rôle IAM de cette section Exécuter une évaluation humaine.
-
-
Après avoir spécifié votre modèle et vos critères, sélectionnez Suivant.
-
Votre équipe de travail est composée des personnes qui évaluent votre modèle. Une fois votre équipe de travail créée, elle persiste indéfiniment et vous ne pouvez pas modifier ses attributs. La section suivante montre comment bien démarrer avec votre équipe de travail.
Configuration de votre équipe de travail
-
Choisissez une équipe existante ou créez une nouvelle équipe dans la zone de saisie de texte Sélectionner une équipe.
-
Spécifiez le nom de votre organisation dans Nom de l’organisation. Ce champ n’apparaît que lorsque vous créez la première équipe de travail dans le compte.
-
Spécifiez une adresse e-mail de contact. Vos employés utiliseront cet adresse e-mail pour communiquer avec vous au sujet de la tâche d’évaluation que vous leur confierez. Ce champ n’apparaît que lorsque vous créez la première équipe de travail dans le compte.
-
Spécifiez un nom d’équipe. Vous ne pourrez pas modifier ce nom ultérieurement.
-
Spécifiez une liste d’adresses e-mail pour chacun de vos employés humains qui évaluera votre grand modèle de langage (LLM). Lorsque vous spécifiez les adresses e-mail pour votre équipe, celle-ci est informée d’une nouvelle tâche uniquement lorsqu’elle vient d’être ajoutée à une équipe de travail. Si vous faites appel à la même équipe pour une tâche ultérieure, vous devez la notifier manuellement.
-
Spécifiez ensuite le nombre d’employés par invite.
Octroi d’instructions à votre équipe de travail
-
Fournissez des instructions détaillées à votre personnel humain afin qu’il puisse évaluer votre modèle selon vos métriques et normes. Un modèle dans la fenêtre principale présente des exemples d’instructions que vous pouvez fournir. Pour plus d’informations sur la manière de donner des instructions, consultez Création d’instructions appropriées à l’intention des employés.
-
Pour minimiser les biais dans votre évaluation humaine, cochez la case en regard de Rendre les positions de réponse aléatoires.
-
Sélectionnez Suivant.
Vous pouvez passer en revue le résumé des sélections que vous avez effectuées pour votre tâche humaine. Si vous devez changer de tâche, choisissez Précédent pour revenir à une sélection précédente.
Soumission de votre demande de tâche d’évaluation et visualisation de l’avancement de la tâche
-
Pour soumettre votre demande de tâche d’évaluation, choisissez Créer une ressource.
-
Pour consulter le statut de toutes vos tâches, choisissez Tâches dans le volet de navigation. Ensuite, choisissez Évaluation des modèles. Le statut de l’évaluation s’affiche comme Terminé, Échec ou En cours.
Les éléments suivants s’affichent également :
-
Exemples de blocs-notes pour évaluer un modèle dans SageMaker AI et Amazon Bedrock.
-
Liens vers des informations supplémentaires, notamment de la documentation, des vidéos, des actualités et des blogs sur le processus d’évaluation des modèles.
-
L’URL de votre Portail des employés privés est également disponible.
-
-
Sélectionnez votre évaluation de modèles sous Nom pour afficher un résumé de votre évaluation.
-
Ce résumé fournit des informations sur le statut de la tâche, le type de tâche d’évaluation que vous avez exécutée sur quel modèle et la date de son exécution. Après ce résumé, les scores des évaluations humaines sont triés et résumés par métrique.
-
Visualisation du bulletin de votre tâche d’évaluation de modèles faisant appel à des employés humains
-
Pour consulter le rapport de vos tâches, choisissez Tâches dans le volet de navigation.
-
Ensuite, choisissez Évaluation des modèles. Sur la page d’accueil Évaluations de modèles, utilisez le tableau pour rechercher votre tâche d’évaluation de modèles. Une fois que le statut de la tâche est devenu Terminé, vous pouvez visualiser votre bulletin.
-
Choisissez le nom de la tâche d’évaluation de modèles sur son bulletin.
Lorsque vous créez une tâche d'évaluation de modèle qui utilise des travailleurs humains, vous avez la possibilité d'apporter vos propres données d'inférence et de demander à vos travailleurs humains de comparer ces données d'inférence aux données produites par un autre JumpStart modèle ou un JumpStart modèle que vous avez déployé sur un terminal.
Cette rubrique décrit le format requis pour les données d’inférence, ainsi qu’une procédure simplifiée pour ajouter ces données à votre tâche d’évaluation de modèles.
Choisissez un jeu de données d’invite. Ce jeu de données d’invite est obligatoire et sera utilisé par votre équipe de travail humaine pour évaluer les réponses de votre modèle. Fournissez l’URI S3 d’un compartiment Amazon S3 qui contient votre jeu de données d’invite dans la zone de texte située sous Choisir un emplacement S3 pour enregistrer vos résultats d’évaluation. Votre jeu de données doit être au format .jsonl. Chaque enregistrement doit être un objet JSON valide et contenir les clés obligatoires suivantes :
-
prompt: objet JSON qui contient le texte à transmettre au modèle. -
(Facultatif)
category: étiquettes de catégorie pour votre invite. La clécategoryest utilisée pour classer vos invites afin que vous puissiez filtrer vos résultats d’évaluation ultérieurement par catégorie pour mieux comprendre les résultats de l’évaluation. Elle ne participe pas à l’évaluation elle-même et les employés ne la voient pas dans l’interface utilisateur de l’évaluation. -
(Facultatif)
referenceResponse: objet JSON contenant la réponse de référence pour vos évaluateurs humains. La réponse de référence n’est pas évaluée par vos employés, mais elle peut être utilisée pour comprendre quelles réponses sont acceptables ou inacceptables, en fonction de vos instructions. -
responses— Utilisé pour spécifier des inférences individuelles à partir d'un modèle en dehors de l' SageMaker IA ou en dehors deAWS.Cet objet nécessite deux paires clé-valeur supplémentaires :
"modelIdentifier, une chaîne identifiant le modèle, et"text", qui constitue l’inférence du modèle.Si vous spécifiez une clé
"responses"dans une entrée quelconque du jeu de données d’invite personnalisé, elle doit être spécifiée dans toutes les entrées.
L’exemple de code json suivant montre les paires clé-valeur acceptées dans un jeu de données d’invite personnalisé qui contient vos propres données d’inférence.
{ "prompt": { "text": "Who invented the airplane?" }, "category": "Airplanes", "referenceResponse": { "text": "Orville and Wilbur Wright" }, "responses": // All inference must come from a single model [{ "modelIdentifier":"meta-textgeneration-llama-codellama-7b", "text": "The Wright brothers, Orville and Wilbur Wright are widely credited with inventing and manufacturing the world's first successful airplane." }] }
Pour commencer, lancez Studio, puis choisissez Évaluation des modèles sous Tâches, dans la navigation principale.
Pour ajouter vos propres données d’inférence à une tâche d’évaluation de modèles humains.
-
Dans Étape 1 : Spécification des détails de la tâche, ajoutez le nom de votre tâche d’évaluation de modèles et une description facultative.
-
Dans Étape 2 : Configuration de l’évaluation, choisissez Humain.
-
Ensuite, sous Choisissez le ou les modèles que vous souhaitez évaluer, vous pouvez choisir le modèle que vous souhaitez utiliser. Vous pouvez utiliser un JumpStart modèle déjà déployé ou choisir un modèle de base Jumpstart pré-entraîné.
-
Choisissez ensuite un type de tâche.
-
Vous pouvez ensuite ajouter des métriques d’évaluation.
-
Ensuite, sous Jeu de données rapide, cochez la case sous Apporter votre propre inférence pour indiquer que vos invites contiennent des clés de réponse.
-
Poursuivez ensuite la configuration de votre tâche d’évaluation de modèles.
Pour en savoir plus sur la façon dont les réponses de votre tâche d’évaluation de modèles faisant appel à des employés humains sont enregistrées, consultez Analyse des résultats d’une tâche d’évaluation humaine.