Configuration d’un cluster Slurm dans Studio - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Configuration d’un cluster Slurm dans Studio

Les instructions suivantes décrivent comment configurer un cluster HyperPod Slurm dans Studio.

  1. Créez un domaine ou préparez-en un. Pour en savoir plus sur la création d’un domaine, consultez Guide de configuration d'Amazon SageMaker AI.

  2. (Facultatif) Créez et attachez un volume personnalisé FSx pour Lustre à votre domaine.

    1. Assurez-vous que votre système de fichiers FSx Lustre existe dans le même VPC que le domaine prévu et qu'il se trouve dans l'un des sous-réseaux présents dans le domaine.

    2. Vous pouvez suivre les instructions dans Ajout d’un système de fichiers personnalisé à un domaine.

  3. (Facultatif) Nous vous recommandons d’ajouter des balises à vos clusters pour garantir un flux de travail plus fluide. Pour plus d'informations sur l'ajout de balises, consultez la section Modifier un SageMaker HyperPod cluster pour mettre à jour votre cluster à l'aide de la console SageMaker AI.

    1. Associez votre système de fichiers FSx for Lustre à votre domaine Studio. Cela vous aidera à identifier le système de fichiers lors du lancement de vos espaces Studio. Pour ce faire, ajoutez la balise suivante à votre cluster pour l'identifier à l'aide de l'ID FSx du système de fichiers,fs-id.

      Clé de balise = « hyperpod-cluster-filesystem », Valeur de balise = « fs-id ».

    2. Balisez votre espace de travail Amazon Managed Grafana par rapport à votre domaine Studio. Cela sera utilisé pour créer une liaison rapide à votre espace de travail Grafana directement depuis votre cluster dans Studio. Pour ce faire, ajoutez la balise suivante à votre cluster pour l’identifier avec l’ID de votre espace de travail Grafana, ws-id.

      Clé de balise = « grafana-workspace », Valeur de balise = « ws-id ».

  4. Ajoutez l’autorisation suivante à votre rôle d’exécution.

    Pour plus d'informations sur les rôles d'exécution de l' SageMaker IA et sur la façon de les modifier, consultezComprendre les autorisations d’espace de domaine et les rôles d’exécution.

    Pour découvrir comment attacher des politiques à un utilisateur ou à un groupe IAM, consultez Ajout et suppression d’autorisations basées sur l’identité IAM.

    JSON
    { "Version":"2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "ssm:StartSession", "ssm:TerminateSession" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "sagemaker:CreateCluster", "sagemaker:ListClusters" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "cloudwatch:PutMetricData", "cloudwatch:GetMetricData" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "sagemaker:DescribeCluster", "sagemaker:DescribeClusterNode", "sagemaker:ListClusterNodes", "sagemaker:UpdateCluster", "sagemaker:UpdateClusterSoftware" ], "Resource": "arn:aws:sagemaker:us-east-1:111122223333:cluster/*" } ] }
  5. Ajoutez une balise à ce rôle IAM, avec Clé de balise = « SSMSessionRunAs » et Valeur de balise = « os user ». L’élément os user est ici le même utilisateur que celui que vous configurez pour le cluster Slurm. Gérez l'accès aux SageMaker HyperPod clusters au niveau d'un rôle IAM ou d'un utilisateur à l'aide de la fonctionnalité Exécuter en tant que de AWS Systems Managerl'agent (agent SSM). Grâce à cette fonctionnalité, vous pouvez démarrer chaque session SSM en utilisant l’utilisateur du système d’exploitation associé au rôle ou à l’utilisateur IAM.

    Pour en savoir plus sur la façon d’ajouter des balises à votre rôle d’exécution, consultez Balisage des rôles IAM.

  6. Activez la prise en charge de la fonctionnalité Exécuter en tant que pour les nœuds gérés Linux et macOS. Les paramètres de la fonctionnalité Exécuter en tant que concernent l’ensemble du compte et sont nécessaires pour que toutes les sessions SSM démarrent correctement.

  7. (Facultatif) Restriction de l’affichage des tâches dans Studio pour les clusters Slurm. Pour en savoir plus sur les tâches consultables dans Studio, consultez Tâches.

Dans Amazon SageMaker Studio, vous pouvez naviguer pour afficher vos clusters dans HyperPod des clusters (sous Compute).

Restriction de l’affichage des tâches dans Studio pour les clusters Slurm

Vous pouvez restreindre l’affichage par les utilisateurs des tâches Slurm qu’il est autorisé de visualiser, sans avoir à saisir manuellement les espaces de noms ou à vérifier des autorisations supplémentaires. La restriction est appliquée en fonction du rôle IAM des utilisateurs, offrant ainsi une expérience utilisateur rationalisée et sécurisée. La section suivante fournit des informations sur la façon de restreindre l’affichage des tâches dans Studio pour les clusters Slurm. Pour en savoir plus sur les tâches consultables dans Studio, consultez Tâches.

Tous les utilisateurs de Studio peuvent visualiser, gérer et interagir avec toutes les tâches du cluster Slurm par défaut. Pour limiter cela, vous pouvez gérer l'accès aux SageMaker HyperPod clusters au niveau d'un rôle IAM ou d'un utilisateur à l'aide de la fonctionnalité Exécuter en tant que de l'AWS Systems Manageragent (agent SSM).

Pour ce faire, vous pouvez baliser les rôles IAM avec des identifiants spécifiques, tels que leur nom d’utilisateur ou leur groupe. Lorsqu’un utilisateur accède à Studio, le Gestionnaire de session utilise la fonctionnalité Exécuter en tant que pour exécuter des commandes en tant que compte d’utilisateur Slurm spécifique qui correspond aux balises de son rôle IAM. La configuration de Slurm peut être paramétrée pour limiter la visibilité des tâches en fonction du compte d’utilisateur. L’interface utilisateur de Studio filtre automatiquement les tâches visibles à ce compte d’utilisateur spécifique lorsque les commandes sont exécutées via la fonctionnalité Exécuter en tant que. Une fois configuré, chaque utilisateur assumant le rôle avec les identifiants spécifiés verra ces tâches Slurm filtrées en fonction de la configuration de Slurm. Pour en savoir plus sur la façon d’ajouter des balises à votre rôle d’exécution, consultez Balisage des rôles IAM.