Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Fehler beim fehlenden NVIDIA-GPU-Plugin
Die Modellbereitstellung schlägt mit einem GPU-Insuffizienzfehler fehl, obwohl GPU-Knoten verfügbar sind. Dies tritt auf, wenn das NVIDIA-Geräte-Plug-In nicht im HyperPod Cluster installiert ist.
Fehlermeldung:
0/15 nodes are available: 10 node(s) didn't match Pod's node affinity/selector, 5 Insufficient nvidia.com/gpu. preemption: 0/15 nodes are available: 10 Preemption is not helpful for scheduling, 5 No preemption victims found for incoming pod.
Grundursache:
-
Kubernetes kann ohne das NVIDIA-Geräte-Plugin keine GPU-Ressourcen erkennen
-
Führt zu Planungsfehlern für GPU-Workloads
Auflösung
Installieren Sie das NVIDIA-GPU-Plugin, indem Sie Folgendes ausführen:
kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/refs/tags/v0.17.1/deployments/static/nvidia-device-plugin.yml
Schritte zur Überprüfung:
-
Überprüfen Sie den Status der Plugin-Bereitstellung:
kubectl get pods -n kube-system | grep nvidia-device-plugin -
Stellen Sie sicher, dass die GPU-Ressourcen jetzt sichtbar sind:
kubectl get nodes -o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\\.com/gpu -
Versuchen Sie erneut, das Modell bereitzustellen
Anmerkung
Stellen Sie sicher, dass NVIDIA-Treiber auf GPU-Knoten installiert sind. Die Plugin-Installation ist ein einmaliges Setup pro Cluster. Für die Installation sind möglicherweise Cluster-Administratorrechte erforderlich.