Résolution d’erreurs lors de la création d’une tâche d’évaluation de modèles dans Amazon SageMaker AI - Amazon SageMaker AI

Résolution d’erreurs lors de la création d’une tâche d’évaluation de modèles dans Amazon SageMaker AI

Important

Pour utiliser les évaluations de modèles de fondation (FMEval) SageMaker Clarify, vous devez effectuer une mise à niveau vers la nouvelle expérience Studio.

Depuis le 30 novembre 2023, l’expérience Amazon SageMaker Studio précédente s’appelle désormais Amazon SageMaker Studio Classic. FMEval n’est pas disponible dans Amazon SageMaker Studio Classic.

Pour en savoir plus sur la manière d’effectuer la mise à niveau vers la nouvelle expérience Studio, consultez Migration depuis Amazon SageMaker Studio Classic. Pour en savoir plus sur l’utilisation de l’application Studio Classic, consultez Amazon SageMaker Studio Classic.

Si vous rencontrez une erreur lors de la création d’une tâche d’évaluation de modèles, utilisez la liste suivante pour dépanner votre évaluation. Si vous avez besoin d’une assistance supplémentaire, contactez Support ou contactez les forums de développeurs AWS pour Amazon SageMaker AI.

Erreur lors du chargement de vos données à partir d’un compartiment Amazon S3

Lorsque vous créez une évaluation de modèles de fondation, vous devez définir les autorisations appropriées pour le compartiment S3 dans lequel vous souhaitez stocker les entrées et sorties de votre modèle. Si les autorisations de partage des ressources cross-origine (CORS) ne sont pas définies correctement, SageMaker AI génère l’erreur suivante :

Error: Failed to put object in s3: Error while uploading object to s3Error: Failed to put object in S3: NetworkError when attempting to fetch resource.

Pour définir les autorisations de compartiment appropriées, suivez les instructions figurant sous Configuration de votre environnement dans Création d’une tâche d’évaluation automatique de modèles dans Studio.

Échec de la tâche de traitement

Les raisons les plus courantes pour lesquelles votre tâche de traitement a échoué sont les suivantes :

Consultez les sections suivantes pour découvrir comment atténuer chaque problème.

Quota insuffisant

Lorsque vous effectuez une évaluation de modèles de fondation pour un modèle JumpStart non déployé, SageMaker Clarify déploie votre grand modèle de langage (LLM) sur un point de terminaison SageMaker AI de votre compte. Si le quota de votre compte n’est pas suffisant pour exécuter le modèle JumpStart sélectionné, la tâche échoue avec un élément ClientError. Pour augmenter votre quota, procédez comme suit :

Demande d’augmentation des quotas de services AWS
  1. Extrayez le nom de l’instance, le quota actuel et le quota nécessaire à partir du message d’erreur affiché à l’écran. Par exemple, pour l’erreur suivante :

    • Le nom de l’instance est ml.g5.12xlarge.

    • Le quota actuel à partir du nombre suivant current utilization est de 0 instances

    • Le quota supplémentaire requis à partir du nombre suivant request delta est de 1 instances.

    Voici l’exemple d’erreur :

    ClientError: An error occurred (ResourceLimitExceeded) when calling the CreateEndpoint operation: The account-level service limit 'ml.g5.12xlarge for endpoint usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please use AWS Service Quotas to request an increase for this quota. If AWS Service Quotas is not available, contact AWS support to request an increase for this quota

  2. Connectez-vous à la AWS Management Console et ouvrez la console Service Quotas.

  3. Dans le volet de navigation, sous Gérer les quotas, entrez Amazon SageMaker AI.

  4. Choisissez Afficher les quotas.

  5. Dans la barre de recherche, sous Service Quotas, saisissez le nom de l’instance de l’étape 1. Par exemple, en utilisant les informations contenues dans le message d’erreur de l’étape 1, entrez ml.g5.12xlarge.

  6. Choisissez le nom du quota qui apparaît à côté du nom de votre instance et se termine par pour l’utilisation de points de terminaison. Par exemple, en utilisant les informations contenues dans le message d’erreur de l’étape 1, choisissez ml.g5.12xlarge pour l’utilisation de points de terminaison.

  7. Choisissez Demander une augmentation au niveau du compte.

  8. Sous Augmenter la valeur du quota, entrez le quota requis à partir des informations fournies dans le message d’erreur de l’étape 1. Entrez la somme de current utilization et request delta. Dans l’exemple d’erreur précédent, current utilization a pour valeur 0 Instances et request delta a pour valeur 1 Instances. Dans cet exemple, demandez un quota de 1 pour fournir le quota requis.

  9. Choisissez Request (Demander).

  10. Choisissez Historique des demandes de quotas dans le volet de navigation.

  11. Lorsque le statut passe de En attente à Approuvé, réexécutez votre tâche. Vous pouvez avoir besoin d’actualiser votre navigateur pour voir le changement.

Pour plus d’informations sur la manière de demander une augmentation de votre quota, consultez Demande d’augmentation de quota.

Mémoire insuffisante

Si vous lancez une évaluation de modèles de fondation sur une instance Amazon EC2 qui ne dispose pas de suffisamment de mémoire pour exécuter un algorithme d’évaluation, la tâche échoue avec l’erreur suivante :

The actor is dead because its worker process has died. Worker exit type: SYSTEM_ERROR Worker exit detail: Worker unexpectedly exits with a connection error code 2. End of file. There are some potential root causes. (1) The process is killed by SIGKILL by OOM killer due to high memory usage. (2) ray stop --force is called. (3) The worker is crashed unexpectedly due to SIGSEGV or other unexpected errors. The actor never ran - it was cancelled before it started running.

Pour augmenter la mémoire disponible pour votre tâche d’évaluation, remplacez votre instance par une instance dotée de plus de mémoire. Si vous utilisez l’interface utilisateur, vous pouvez choisir un type d’instance sous Configuration du processeur à l’étape 2. Si vous exécutez votre tâche dans la console SageMaker AI, lancez un nouvel espace à l’aide d’une instance dotée d’une capacité de mémoire accrue.

Pour accéder à la liste des instance Amazon EC2, consultez Types d’instances.

Pour plus d’informations sur les instances dotées d’une plus grande capacité de mémoire, consultez Instances à mémoire optimisée.

Échec lors de la vérification du ping

Dans certains cas, votre tâche d’évaluation de modèles de fondation échouera, car elle n’aura pas réussi une vérification du ping lors du déploiement de votre point de terminaison par SageMaker AI. Si elle ne réussit pas un test ping, l’erreur suivante apparaît :

ClientError: Error hosting endpoint your_endpoint_name: Failed. Reason: The primary container for production variant AllTraffic did not pass the ping health check. Please check CloudWatch logs for this endpoint..., Job exited for model: your_model_name of model_type: your_model_type

Si votre tâche génère cette erreur, attendez quelques minutes et exécutez à nouveau votre tâche. Si l’erreur persiste, contactez AWS Support ou les forums de développeurs AWS pour Amazon SageMaker AI.

Évaluations de modèles de fondation introuvables dans la console SageMaker AI

Pour utiliser les évaluations de modèles de fondation SageMaker Clarify, vous devez effectuer une mise à niveau vers la nouvelle expérience Studio. Depuis le 30 novembre 2023, l’expérience Amazon SageMaker Studio précédente s’appelle désormais Amazon SageMaker Studio Classic. La caractéristique d’évaluation des modèles de fondation ne peut être utilisée que dans l’expérience mise à jour. Pour en savoir plus sur la façon de mettre à jour Studio, consultez Migration depuis Amazon SageMaker Studio Classic.

Votre modèle ne prend pas en charge le stéréotypage d’invite

Seuls certains modèles JumpStart prennent en charge le stéréotypage d’invite. Si vous sélectionnez un modèle JumpStart qui n’est pas pris en charge, le message d’erreur suivant apparaît :

{"evaluationMetrics":"This model does not support Prompt stereotyping evaluation. Please remove that evaluation metric or select another model that supports it."}

Si vous recevez cette erreur, vous ne pouvez pas utiliser votre modèle sélectionné dans le cadre de l’évaluation de modèles de fondation. SageMaker Clarify travaille actuellement à la mise à jour de tous les modèles JumpStart pour les tâches de stéréotypage d’invite afin qu’ils puissent être utilisés dans le cadre de l’évaluation de modèles de fondation.

Erreurs de validation des jeux de données (humaines)

Le jeu de données d’invite personnalisé d’une tâche d’évaluation de modèles qui utilise des employés humains doit être formaté au format des lignes JSON à l’aide de l’extension .jsonl.

Lorsque vous démarrez une tâche, chaque objet JSON du jeu de données d’invite est validé de manière interdépendante. Si l’un des objets JSON n’est pas valide, l’erreur suivante s’affiche.

Customer Error: Your input dataset could not be validated. Your dataset can have up to 1000 prompts. The dataset must be a valid jsonl file, and each prompt valid json object.To learn more about troubleshooting dataset validations errors, see Troubleshooting guide. Job executed for models: meta-textgeneration-llama-2-7b-f, pytorch-textgeneration1-alexa20b.

Pour qu’un jeu de données d’invite personnalisé réussisse toutes les validations, les conditions suivantes doivent être vraies pour tous les objets JSON du fichier de lignes JSON.

  • Chaque ligne du fichier de jeu de données d’invite doit être un objet JSON valide.

  • Les caractères spéciaux tels que les guillemets (") doivent être correctement échappés. Par exemple, si votre invite était "Claire said to the crowd, "Bananas are the best!"", les guillemets devraient être échappés à l’aide d’une \, "Claire said to the crowd, \"Bananas are the best!\"".

  • Un objet JSON valide doit contenir au moins la paire clé/valeur prompt.

  • Un fichier de jeu de données d’invite ne peut pas contenir plus de 1 000 objets JSON dans un seul fichier.

  • Si vous spécifiez la clé responses dans un objet JSON quelconque, elle doit être présente dans tous les objets JSON.

  • Le nombre maximal d’objets dans la clé responses est 1. Si vous souhaitez comparer les réponses de plusieurs modèles, chacun nécessite un jeu de données BYOI distinct.

  • Si vous spécifiez la clé responses dans un objet JSON quelconque, il doit également contenir les clés modelIdentifier et text dans tous les objets responses.