View a markdown version of this page

Errore mancante del plug-in GPU NVIDIA - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Errore mancante del plug-in GPU NVIDIA

L'implementazione del modello non riesce a causa di un errore di insufficienza della GPU nonostante siano disponibili nodi GPU. Ciò si verifica quando il plug-in del dispositivo NVIDIA non è installato nel cluster. HyperPod

Messaggio di errore:

0/15 nodes are available: 10 node(s) didn't match Pod's node affinity/selector, 5 Insufficient nvidia.com/gpu. preemption: 0/15 nodes are available: 10 Preemption is not helpful for scheduling, 5 No preemption victims found for incoming pod.

Causa principale:

  • Kubernetes non è in grado di rilevare le risorse della GPU senza il plug-in del dispositivo NVIDIA

  • Provoca errori di pianificazione per i carichi di lavoro della GPU

Risoluzione:

Installa il plug-in GPU NVIDIA eseguendo:

kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/refs/tags/v0.17.1/deployments/static/nvidia-device-plugin.yml

Passaggi di verifica:

  1. Controlla lo stato di distribuzione del plugin:

    kubectl get pods -n kube-system | grep nvidia-device-plugin
  2. Verifica che le risorse della GPU siano ora visibili:

    kubectl get nodes -o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\\.com/gpu
  3. Riprova la distribuzione del modello

Nota

Assicurati che i driver NVIDIA siano installati sui nodi GPU. L'installazione del plugin è una configurazione unica per cluster. L'installazione può richiedere i privilegi di amministratore del cluster.