View a markdown version of this page

Erreur du plugin GPU NVIDIA manquant - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Erreur du plugin GPU NVIDIA manquant

Le déploiement du modèle échoue avec une erreur d'insuffisance du GPU malgré la disponibilité de nœuds GPU. Cela se produit lorsque le plug-in de périphérique NVIDIA n'est pas installé dans le HyperPod cluster.

Message d’erreur:

0/15 nodes are available: 10 node(s) didn't match Pod's node affinity/selector, 5 Insufficient nvidia.com/gpu. preemption: 0/15 nodes are available: 10 Preemption is not helpful for scheduling, 5 No preemption victims found for incoming pod.

Cause première :

  • Kubernetes ne peut pas détecter les ressources du GPU sans le plug-in pour appareil NVIDIA

  • Cela entraîne des échecs de planification pour les charges de travail du GPU

Résolution :

Installez le plug-in GPU NVIDIA en exécutant :

kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/refs/tags/v0.17.1/deployments/static/nvidia-device-plugin.yml

Étapes de vérification :

  1. Vérifiez l'état du déploiement du plugin :

    kubectl get pods -n kube-system | grep nvidia-device-plugin
  2. Vérifiez que les ressources du GPU sont désormais visibles :

    kubectl get nodes -o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\\.com/gpu
  3. Réessayer le déploiement du modèle

Note

Assurez-vous que les pilotes NVIDIA sont installés sur les nœuds GPU. L'installation du plugin s'effectue une seule fois par cluster. L'installation peut nécessiter des privilèges d'administrateur du cluster.