Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Errore mancante del plug-in GPU NVIDIA
L'implementazione del modello non riesce a causa di un errore di insufficienza della GPU nonostante siano disponibili nodi GPU. Ciò si verifica quando il plug-in del dispositivo NVIDIA non è installato nel cluster. HyperPod
Messaggio di errore:
0/15 nodes are available: 10 node(s) didn't match Pod's node affinity/selector, 5 Insufficient nvidia.com/gpu. preemption: 0/15 nodes are available: 10 Preemption is not helpful for scheduling, 5 No preemption victims found for incoming pod.
Causa principale:
-
Kubernetes non è in grado di rilevare le risorse della GPU senza il plug-in del dispositivo NVIDIA
-
Provoca errori di pianificazione per i carichi di lavoro della GPU
Risoluzione:
Installa il plug-in GPU NVIDIA eseguendo:
kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/refs/tags/v0.17.1/deployments/static/nvidia-device-plugin.yml
Passaggi di verifica:
-
Controlla lo stato di distribuzione del plugin:
kubectl get pods -n kube-system | grep nvidia-device-plugin -
Verifica che le risorse della GPU siano ora visibili:
kubectl get nodes -o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\\.com/gpu -
Riprova la distribuzione del modello
Nota
Assicurati che i driver NVIDIA siano installati sui nodi GPU. L'installazione del plugin è una configurazione unica per cluster. L'installazione può richiedere i privilegi di amministratore del cluster.