HyperPod onglets dans Studio - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

HyperPod onglets dans Studio

Dans Amazon SageMaker Studio, vous pouvez accéder à l'un de vos clusters dans HyperPodclusters (sous Compute) et consulter votre liste de clusters. Les clusters affichés contiennent des informations telles que les tâches, les métriques matérielles, les paramètres et les détails des métadonnées. Cette visibilité peut aider votre équipe à identifier le bon candidat pour vos charges de travail de pré-entraînement ou de peaufinage. Les sections suivantes fournissent des informations sur chaque type d’informations.

Tâches

Amazon SageMaker HyperPod fournit une vue des tâches de votre cluster. Les tâches sont des opérations ou des tâches envoyées au cluster. Il peut s’agir d’opérations de machine learning, telles que l’entraînement, l’exécution d’expériences ou l’inférence. La section suivante fournit des informations sur les tâches de votre HyperPod cluster.

Dans Amazon SageMaker Studio, vous pouvez accéder à l'un de vos clusters dans des HyperPodclusters (sous Compute) et consulter les informations relatives aux tâches de votre cluster. Si vous rencontrez des problèmes lors de l’affichage des tâches, consultez Résolution des problèmes.

Le tableau des tâches inclut :

For Slurm clusters

Pour les clusters Slurm, les tâches actuellement présentes dans la file d’attente du planificateur de tâches Slurm sont indiquées dans le tableau. Les informations affichées pour chaque tâche incluent le nom de la tâche, son statut, son identifiant, sa partition, son temps d’exécution, ses nœuds, son créateur et les actions.

Pour obtenir une liste et des détails sur les tâches passées, utilisez la sacctcommande dans JupyterLab ou un terminal de l'éditeur de code. La commande sacct est utilisée pour afficher des informations historiques sur les tâches arrêtées ou terminées dans le système. Elle fournit des informations comptables, y compris l’utilisation des ressources des tâches telles que la mémoire et le statut de sortie.

Par défaut, tous les utilisateurs de Studio peuvent visualiser, gérer et interagir avec toutes les tâches Slurm disponibles. Pour restreindre les tâches consultables par les utilisateurs de Studio, consultez Restriction de l’affichage des tâches dans Studio pour les clusters Slurm.

For Amazon EKS clusters

Pour les clusters Amazon EKS, les tâches kubeflow (PyTorch, MPI, TensorFlow) sont indiquées dans le tableau. PyTorch les tâches sont affichées par défaut. Vous pouvez trier par PyTorch MPI et TensorFlow par type de tâche. Les informations affichées pour chaque tâche incluent le nom, le statut, l’espace de noms, la classe de priorité et l’heure de création de la tâche.

Par défaut, tous les utilisateurs peuvent visualiser les tâches dans tous les espaces de noms. Pour restreindre les espaces de noms Kubernetes visualisables accessibles aux utilisateurs de Studio, consultez Restriction de l’affichage des tâches dans Studio pour les clusters EKS. Si un utilisateur ne peut pas voir les tâches et qu’il est invité à fournir un espace de noms, il doit obtenir ces informations auprès de l’administrateur.

Métriques

Amazon SageMaker HyperPod fournit une vue des mesures d'utilisation de votre cluster Slurm ou Amazon EKS. Vous trouverez ci-dessous des informations sur les métriques de votre HyperPod cluster.

Vous devez installer le module complémentaire Amazon EKS afin d’afficher les métriques suivantes. Pour plus d'informations, consultez Installer le module complémentaire Amazon CloudWatch Observability EKS.

Dans Amazon SageMaker Studio, vous pouvez accéder à l'un de vos clusters dans des HyperPodclusters (sous Compute) et consulter les détails des métriques de votre cluster. La page Métriques fournit une vue complète des métriques d’utilisation du cluster, y compris les métriques relatives au matériel, aux équipes et aux tâches. Cela inclut la disponibilité et l’utilisation du calcul, l’allocation et l’utilisation des équipes, ainsi que les informations sur l’exécution des tâches et les temps d’attente.

Settings

Amazon SageMaker HyperPod fournit une vue des paramètres de votre cluster. Vous trouverez ci-dessous des informations sur les paramètres de votre HyperPod cluster.

Dans Amazon SageMaker Studio, vous pouvez accéder à l'un de vos clusters dans des HyperPodclusters (sous Compute) et consulter les informations de configuration de votre cluster. Les informations incluent ce qui suit :

  • Détails des instances, y compris l’ID de l’instance, le statut, le type d’instance et le groupe d’instances

  • Détails des groupes d’instances, y compris le nom, le type, le nombre et les informations de calcul des groupes d’instances

  • Détails de l’orchestration, y compris l’orchestrateur, la version et l’autorité de certification

  • Détails de la résilience du cluster

  • Détails de sécurité, y compris les sous-réseaux et les groupes de sécurité

Détails

Amazon SageMaker HyperPod fournit un aperçu des détails des métadonnées de votre cluster. Le paragraphe suivant fournit des informations sur la façon d'obtenir les détails de votre HyperPod cluster.

Dans Amazon SageMaker Studio, vous pouvez accéder à l'un de vos clusters dans des HyperPodclusters (sous Compute) et consulter les détails de votre cluster. Cela inclut les balises, les journaux et les métadonnées.