Fehler beim fehlenden NVIDIA-GPU-Plugin

Die Modellbereitstellung schlägt mit einem GPU-Insuffizienzfehler fehl, obwohl GPU-Knoten verfügbar sind. Dies tritt auf, wenn das NVIDIA-Geräte-Plug-In nicht im HyperPod Cluster installiert ist.

Fehlermeldung:


0/15 nodes are available: 10 node(s) didn't match Pod's node affinity/selector, 
5 Insufficient nvidia.com/gpu. preemption: 0/15 nodes are available: 
10 Preemption is not helpful for scheduling, 5 No preemption victims found for incoming pod.

Grundursache:

Kubernetes kann ohne das NVIDIA-Geräte-Plugin keine GPU-Ressourcen erkennen
Führt zu Planungsfehlern für GPU-Workloads

Auflösung

Installieren Sie das NVIDIA-GPU-Plugin, indem Sie Folgendes ausführen:


kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/refs/tags/v0.17.1/deployments/static/nvidia-device-plugin.yml

Schritte zur Überprüfung:

Überprüfen Sie den Status der Plugin-Bereitstellung:


kubectl get pods -n kube-system | grep nvidia-device-plugin

Stellen Sie sicher, dass die GPU-Ressourcen jetzt sichtbar sind:


kubectl get nodes -o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\\.com/gpu

Versuchen Sie erneut, das Modell bereitzustellen

Anmerkung

Stellen Sie sicher, dass NVIDIA-Treiber auf GPU-Knoten installiert sind. Die Plugin-Installation ist ein einmaliges Setup pro Cluster. Für die Installation sind möglicherweise Cluster-Administratorrechte erforderlich.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Problem mit der IAM-Vertrauensbeziehung

Der Inferenzoperator kann nicht gestartet werden