Erreur du plugin GPU NVIDIA manquant

Le déploiement du modèle échoue avec une erreur d'insuffisance du GPU malgré la disponibilité de nœuds GPU. Cela se produit lorsque le plug-in de périphérique NVIDIA n'est pas installé dans le HyperPod cluster.

Message d’erreur:


0/15 nodes are available: 10 node(s) didn't match Pod's node affinity/selector, 
5 Insufficient nvidia.com/gpu. preemption: 0/15 nodes are available: 
10 Preemption is not helpful for scheduling, 5 No preemption victims found for incoming pod.

Cause première :

Kubernetes ne peut pas détecter les ressources du GPU sans le plug-in pour appareil NVIDIA
Cela entraîne des échecs de planification pour les charges de travail du GPU

Résolution :

Installez le plug-in GPU NVIDIA en exécutant :


kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/refs/tags/v0.17.1/deployments/static/nvidia-device-plugin.yml

Étapes de vérification :

Vérifiez l'état du déploiement du plugin :


kubectl get pods -n kube-system | grep nvidia-device-plugin

Vérifiez que les ressources du GPU sont désormais visibles :


kubectl get nodes -o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\\.com/gpu

Réessayer le déploiement du modèle

Note

Assurez-vous que les pilotes NVIDIA sont installés sur les nœuds GPU. L'installation du plugin s'effectue une seule fois par cluster. L'installation peut nécessiter des privilèges d'administrateur du cluster.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Problème de relation de confiance entre IAM

L'opérateur d'inférence ne démarre pas