Résolution des problèmes - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Résolution des problèmes

Important

Depuis le 30 novembre 2023, l'expérience Amazon SageMaker Studio précédente s'appelle désormais Amazon SageMaker Studio Classic. La section suivante est spécifique à l’utilisation de l’expérience Studio mise à jour. Pour en savoir plus sur l’utilisation de l’application Studio Classic, consultez Amazon SageMaker Studio classique.

Important

Les politiques IAM personnalisées qui permettent à Amazon SageMaker Studio ou Amazon SageMaker Studio Classic de créer des SageMaker ressources Amazon doivent également accorder des autorisations pour ajouter des balises à ces ressources. L’autorisation d’ajouter des balises aux ressources est requise, car Studio et Studio Classic balisent automatiquement toutes les ressources qu’ils créent. Si une politique IAM autorise Studio et Studio Classic à créer des ressources mais n'autorise pas le balisage, des erreurs « AccessDenied » peuvent se produire lors de la tentative de création de ressources. Pour de plus amples informations, veuillez consulter Fournir des autorisations pour le balisage des ressources d' SageMaker IA.

AWSpolitiques gérées pour Amazon SageMaker AIqui donnent des autorisations pour créer des SageMaker ressources incluent déjà des autorisations pour ajouter des balises lors de la création de ces ressources.

Cette section explique comment résoudre les problèmes courants dans Amazon SageMaker Studio.

Mode de récupération

Le mode de récupération vous permet d’accéder à votre application Studio lorsqu’un problème de configuration vous empêche de démarrer normalement. Il fournit un environnement simplifié doté de fonctionnalités essentielles pour diagnostiquer et corriger le problème.

Lorsqu’une application ne démarre pas, un message d’erreur peut s’afficher concernant l’accès au mode de récupération pour résoudre l’un des problèmes de configuration suivants.

  • Fichier .condarc corrompu.

    Pour obtenir des informations sur le dépannage de votre fichier .condarc, consultez la page de dépannage du Guide de l’utilisateur Conda.

  • Volume de stockage disponible insuffisant.

    Vous pouvez augmenter l’espace de stockage Amazon EBS disponible pour l’application ou passer en mode de récupération pour supprimer les données inutiles.

    Pour obtenir des informations sur l’augmentation de la taille du volume Amazon EBS, consultez Demande d’augmentation de quota dans le Guide du développeur de Service Quotas.

En mode de récupération :

  • Votre répertoire de base sera différent de votre répertoire de démarrage normal. Ce répertoire est temporaire et garantit qu’aucune configuration corrompue dans votre répertoire de base standard n’aura d’incidence sur vos opérations en mode de récupération. Vous pouvez accéder à votre répertoire de base standard en utilisant la commande cd /home/sagemaker-user.

    • Mode standard : /home/sagemaker-user

    • Mode de récupération : /tmp/sagemaker-recovery-mode-home

  • L’environnement conda utilise un environnement conda de base minimal comprenant uniquement les packages essentiels. La configuration conda simplifiée permet d’isoler les problèmes liés à l’environnement et fournit des fonctionnalités de base pour le dépannage.

Vous pouvez utiliser l'interface utilisateur de Studio ou le AWS CLI pour accéder à l'application en mode de restauration.

Vous trouverez ci-dessous des instructions pour accéder à votre application en mode de récupération.

  1. Si vous ne l’avez pas encore fait, lancez l’interface utilisateur de Studio en suivant les instructions dans Lancement depuis la console Amazon SageMaker AI.

  2. Dans le menu de navigation de gauche, sous Applications, choisissez l’application.

  3. Choisissez l’espace avec lequel vous rencontrez des problèmes de configuration.

    Les étapes suivantes sont mises à votre disposition si vous rencontrez un ou plusieurs des problèmes de configuration mentionnés précédemment. Dans ce cas, vous verrez une bannière d’avertissement et le message Mode de récupération.

    Note

    La bannière d’avertissement doit contenir une solution recommandée au problème. Prenez-en note avant de poursuivre.

  4. Choisissez Exécuter Space (mode de récupération).

  5. Pour accéder à votre application en mode de restauration, choisissez Ouvrir application (mode de récupération).

Pour accéder à votre application en mode de restauration, vous devez ajouter --recovery-mode à votre commande AWS CLIcreate-app. Vous trouverez ci-dessous un exemple d’accès à votre application en mode de récupération.

Pour l’exemple suivant, vous avez besoin des éléments suivants :

Access Code Editor application in recovery mode
aws sagemaker create-app \ --app-name app-name \ --app-type CodeEditor \ --domain-id domain-id \ --space-name space-name \ --recovery-mode
Access JupyterLab application in recovery mode
aws sagemaker create-app \ --app-name app-name \ --app-type JupyterLab \ --domain-id domain-id \ --space-name space-name \ --recovery-mode

Impossible de supprimer l'éditeur de code ou JupyterLab l'application

Ce problème se produit lorsqu'un utilisateur crée une application à partir d'Amazon SageMaker Studio, qui n'est disponible que dans Studio, puis rétablit son expérience par défaut dans Studio Classic. Par conséquent, l'utilisateur ne peut pas supprimer une application pour Code Editor, basée sur Code-OS, Visual Studio Code - Open Source ou JupyterLab parce qu'il ne peut pas accéder à l'interface utilisateur de Studio.

Pour résoudre ce problème, informez votre administrateur afin qu'il puisse supprimer l'application manuellement à l'aide du AWS Command Line Interface (AWS CLI).

EC2InsufficientCapacityError

Ce problème se produit lorsque vous essayez de gérer un espace alors AWS que la capacité disponible à la demande est actuellement insuffisante pour répondre à votre demande.

Pour résoudre ce problème, procédez comme suit.

  • Attendez quelques minutes, puis soumettez à nouveau votre demande. La capacité peut changer fréquemment.

  • Exécutez l’espace avec une autre taille ou un autre type d’instance.

Note

La capacité est disponible dans d’autres zones de disponibilité. Pour optimiser la disponibilité de la capacité pour les utilisateurs, nous recommandons de configurer des sous-réseaux dans toutes les zones de disponibilité. Studio réessaie toutes les zones de disponibilité disponibles pour le domaine.

La disponibilité des types d’instances varie d’une région à l’autre. Pour obtenir la liste des types d'instances pris en charge par région, consultez la tarification d'Amazon SageMaker AI)

Le tableau suivant répertorie les familles d’instances et leurs alternatives recommandées.

Famille d’instances Type de CPU v CPUs Mémoire (Gio) Type de GPU GPUs Mémoire GPU (Gio) Alternative recommandée
G4dn Processeurs Intel Xeon Scalable de 2e génération 4 à 96 16 à 384 NVIDIA T4 Tensor Core 1 à 8 16 par GPU G6
G5 Processeurs AMD EPYC de 2e génération 4 à 192 16 à 768 NVIDIA A10G Tensor core 1 à 8 24 par GPU G6e
G6 Processeurs AMD EPYC de 3e génération 4 à 192 16 à 768 NVIDIA L4 Tensor Core 1 à 8 24 par GPU G4dn
G6e Processeurs AMD EPYC de 3e génération 4 à 192 32 à 1 536 NVIDIA L40S Tensor Core 1 à 8 48 par GPU G5, P4
P3 Processeurs Intel Xeon Scalable 8 à 96 61 à 768 NVIDIA Tesla V100 1 à 8 16 par GPU (32 par GPU pour P3dn) G6e, P4
P4 Processeurs Intel Xeon Scalable de 2e génération 96 1 152 NVIDIA A100 Tensor Core 8 320 (640 pour P4de) G6e
P5 Processeurs AMD EPYC de 3e génération 192 2000 NVIDIA H100 Tensor Core 8 640 P4de

Limite insuffisante (augmentation de quota requise)

Ce problème se produit lorsque le message d’erreur suivant s’affiche quand vous tentez d’exécuter un espace.

Error when creating application for space: ... : The account-level service limit is X Apps, with current utilization Y Apps and a request delta of 1 Apps. Please useService Quotasto request an increase for this quota.

Pour chaque type d’instance, une limite par défaut s’applique sur le nombre d’instances que vous pouvez exécuter dans chaque Région AWS. Cette erreur signifie que vous avez atteint cette limite.

Pour résoudre ce problème, demandez une augmentation de la limite d'instances pour l'espace dans Région AWS lequel vous lancez l'espace. Pour plus d’informations, consultez Demande d’augmentation de quota.

Impossible de charger l’image personnalisée

Ce problème se produit lorsqu'une image SageMaker AI est supprimée avant de la détacher de votre domaine. Cela se voit lorsque vous affichez l’onglet Environnement de votre domaine.

Pour résoudre ce problème, vous devez créer une nouvelle image temporaire portant le même nom que celle supprimée, détacher cette image, puis supprimer l’image temporaire. Appliquez les instructions suivantes pour une visite guidée.

  1. Si ce n'est pas déjà fait, lancez la console SageMaker AI.

  2. Dans le menu de navigation de gauche, sous Configurations d’administrateur, choisissez Domaines.

  3. Choisissez votre domaine.

  4. Choisissez l’onglet Environnement. Vous verrez le message d’erreur sur cette page.

  5. Copiez le nom de votre image à partir de l’ARN de l’image.

  6. Dans le menu de navigation de gauche, sous Configurations d’administrateur, choisissez Images.

  7. Choisissez Create image (Créer une image).

  8. Suivez les étapes de la procédure, mais assurez-vous que le nom de votre image est le même que celui indiqué ci-dessus.

    Si vous n’avez pas d’image dans un répertoire Amazon ECR, consultez les instructions fournies dans Création d’une image personnalisée et envoi (push) vers Amazon ECR.

  9. Une fois que vous avez créé votre image SageMaker AI, revenez à l'onglet Environnement de votre domaine. Vous verrez l’image attachée à votre domaine.

  10. Sélectionnez l’image et choisissez Détacher.

  11. Suivez les instructions pour détacher et supprimer l'image SageMaker AI temporaire.