View a markdown version of this page

Falta un error en el complemento de la GPU NVIDIA - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Falta un error en el complemento de la GPU NVIDIA

La implementación del modelo falla debido a un error de insuficiencia de la GPU a pesar de tener nodos de GPU disponibles. Esto ocurre cuando el complemento del dispositivo NVIDIA no está instalado en el HyperPod clúster.

Mensaje de error:

0/15 nodes are available: 10 node(s) didn't match Pod's node affinity/selector, 5 Insufficient nvidia.com/gpu. preemption: 0/15 nodes are available: 10 Preemption is not helpful for scheduling, 5 No preemption victims found for incoming pod.

Causa raíz:

  • Kubernetes no puede detectar los recursos de la GPU sin el complemento de dispositivo NVIDIA

  • Provoca errores en la programación de las cargas de trabajo de la GPU

Solución:

Instala el complemento de GPU de NVIDIA ejecutando:

kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/refs/tags/v0.17.1/deployments/static/nvidia-device-plugin.yml

Pasos de verificación:

  1. Comprueba el estado de despliegue del plugin:

    kubectl get pods -n kube-system | grep nvidia-device-plugin
  2. Comprueba que los recursos de la GPU estén ahora visibles:

    kubectl get nodes -o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\\.com/gpu
  3. Vuelva a intentar el despliegue del modelo

nota

Asegúrese de que los controladores NVIDIA estén instalados en los nodos de la GPU. La instalación del plugin se realiza una sola vez por clúster. Es posible que se requieran privilegios de administrador del clúster para su instalación.