View a markdown version of this page

Fehler beim fehlenden NVIDIA-GPU-Plugin - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Fehler beim fehlenden NVIDIA-GPU-Plugin

Die Modellbereitstellung schlägt mit einem GPU-Insuffizienzfehler fehl, obwohl GPU-Knoten verfügbar sind. Dies tritt auf, wenn das NVIDIA-Geräte-Plug-In nicht im HyperPod Cluster installiert ist.

Fehlermeldung:

0/15 nodes are available: 10 node(s) didn't match Pod's node affinity/selector, 5 Insufficient nvidia.com/gpu. preemption: 0/15 nodes are available: 10 Preemption is not helpful for scheduling, 5 No preemption victims found for incoming pod.

Grundursache:

  • Kubernetes kann ohne das NVIDIA-Geräte-Plugin keine GPU-Ressourcen erkennen

  • Führt zu Planungsfehlern für GPU-Workloads

Auflösung

Installieren Sie das NVIDIA-GPU-Plugin, indem Sie Folgendes ausführen:

kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/refs/tags/v0.17.1/deployments/static/nvidia-device-plugin.yml

Schritte zur Überprüfung:

  1. Überprüfen Sie den Status der Plugin-Bereitstellung:

    kubectl get pods -n kube-system | grep nvidia-device-plugin
  2. Stellen Sie sicher, dass die GPU-Ressourcen jetzt sichtbar sind:

    kubectl get nodes -o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\\.com/gpu
  3. Versuchen Sie erneut, das Modell bereitzustellen

Anmerkung

Stellen Sie sicher, dass NVIDIA-Treiber auf GPU-Knoten installiert sind. Die Plugin-Installation ist ein einmaliges Setup pro Cluster. Für die Installation sind möglicherweise Cluster-Administratorrechte erforderlich.