Errore mancante del plug-in GPU NVIDIA

L'implementazione del modello non riesce a causa di un errore di insufficienza della GPU nonostante siano disponibili nodi GPU. Ciò si verifica quando il plug-in del dispositivo NVIDIA non è installato nel cluster. HyperPod

Messaggio di errore:


0/15 nodes are available: 10 node(s) didn't match Pod's node affinity/selector, 
5 Insufficient nvidia.com/gpu. preemption: 0/15 nodes are available: 
10 Preemption is not helpful for scheduling, 5 No preemption victims found for incoming pod.

Causa principale:

Kubernetes non è in grado di rilevare le risorse della GPU senza il plug-in del dispositivo NVIDIA
Provoca errori di pianificazione per i carichi di lavoro della GPU

Risoluzione:

Installa il plug-in GPU NVIDIA eseguendo:


kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/refs/tags/v0.17.1/deployments/static/nvidia-device-plugin.yml

Passaggi di verifica:

Controlla lo stato di distribuzione del plugin:


kubectl get pods -n kube-system | grep nvidia-device-plugin

Verifica che le risorse della GPU siano ora visibili:


kubectl get nodes -o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\\.com/gpu

Riprova la distribuzione del modello

Nota

Assicurati che i driver NVIDIA siano installati sui nodi GPU. L'installazione del plugin è una configurazione unica per cluster. L'installazione può richiedere i privilegi di amministratore del cluster.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Problema di relazione fiduciaria IAM

L'operatore di inferenza non si avvia