Resolución de problemas - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Resolución de problemas

importante

A partir del 30 de noviembre de 2023, la experiencia anterior de Amazon SageMaker Studio pasa a denominarse Amazon SageMaker Studio Classic. La siguiente sección está dedicada expresamente al uso de la experiencia de Studio actualizada. Para obtener más información sobre el uso de la aplicación de Studio Classic, consulte Amazon SageMaker Studio Clásico.

importante

Las políticas de IAM personalizadas que permiten a Amazon SageMaker Studio o Amazon SageMaker Studio Classic crear SageMaker recursos de Amazon también deben conceder permisos para añadir etiquetas a esos recursos. El permiso para añadir etiquetas a los recursos es necesario porque Studio y Studio Classic etiquetan automáticamente todos los recursos que crean. Si una política de IAM permite a Studio y Studio Classic crear recursos, pero no permite el etiquetado, se pueden producir errores de tipo AccessDenied «» al intentar crear recursos. Para obtener más información, consulte Proporcione permisos para etiquetar los recursos de SageMaker IA.

AWSpolíticas gestionadas para Amazon SageMaker AIque otorgan permisos para crear SageMaker recursos ya incluyen permisos para añadir etiquetas al crear esos recursos.

En esta sección se muestra cómo solucionar problemas comunes en Amazon SageMaker Studio.

Método de recuperación

El modo de recuperación le permite acceder a su aplicación de Studio cuando un problema de configuración impide que se pueda iniciar de forma normal. Este método proporciona un entorno simplificado con funciones esenciales para diagnosticar y solucionar el problema.

Cuando una aplicación no se inicia, es posible que aparezca un mensaje de error sobre el acceso al modo de recuperación para solucionar uno de los siguientes problemas de configuración.

  • Archivo .condarc dañado.

    Para obtener más información sobre la solución de problemas del archivo .condarc, consulte la página de solución de problemas de la Guía del usuario de Conda.

  • Volumen de almacenamiento disponible insuficiente.

    Puede aumentar el espacio de almacenamiento de Amazon EBS disponible para la aplicación o entrar en el modo de recuperación para eliminar los datos innecesarios.

    Para obtener más información sobre cómo aumentar el tamaño del volumen de Amazon EBS, consulte solicitar un tamaño de cuota en la Guía para desarrolladores de Service Quotas.

En el modo de recuperación:

  • Su directorio de inicio será diferente al de su inicio normal. Este directorio es temporal y garantiza que cualquier configuración dañada de su directorio de inicio estándar no afecte a las operaciones del modo de recuperación. Puede navegar hasta su directorio de inicio estándar mediante el comando cd /home/sagemaker-user.

    • Modo estándar: /home/sagemaker-user

    • Método de recuperación: /tmp/sagemaker-recovery-mode-home

  • El entorno conda utiliza un entorno conda básico mínimo con solo los paquetes esenciales. La configuración simplificada de conda ayuda a aislar los problemas relacionados con el entorno y proporciona funciones básicas para la solución de problemas.

Puede utilizar la interfaz de usuario de Studio o la AWS CLI para acceder a la aplicación en modo de recuperación.

A continuación, se proporcionan instrucciones para acceder a la aplicación en modo de recuperación.

  1. Si aún no lo ha hecho, siga las instrucciones indicadas en Lanzamiento desde la consola Amazon SageMaker AI para lanzar la interfaz de usuario de Studio.

  2. En el menú de navegación de la izquierda, elija la aplicación en Aplicaciones.

  3. Elija el espacio con el que tiene problemas de configuración.

    Los siguientes pasos estarán disponibles cuando se tope con uno o más de los problemas de configuración mencionados anteriormente. En este caso, verá un cartel de advertencia y el mensaje Modo de recuperación.

    nota

    El banner de advertencia debería incluir una solución recomendada para solucionar el problema. Tome nota de ello antes de continuar.

  4. Seleccione Ejecutar espacio (modo de recuperación).

  5. Para acceder a la aplicación en modo de recuperación, selecciona Abrir application (modo de recuperación).

Para acceder a la aplicación en modo de recuperación, debe añadirla --recovery-mode al comando create-appAWS CLI. A continuación, se proporciona un ejemplo sobre cómo acceder a la aplicación en modo de recuperación.

Para el siguiente ejemplo, necesitará lo siguiente:

Access Code Editor application in recovery mode
aws sagemaker create-app \ --app-name app-name \ --app-type CodeEditor \ --domain-id domain-id \ --space-name space-name \ --recovery-mode
Access JupyterLab application in recovery mode
aws sagemaker create-app \ --app-name app-name \ --app-type JupyterLab \ --domain-id domain-id \ --space-name space-name \ --recovery-mode

No se puede eliminar el editor de código ni la aplicación JupyterLab

Este problema se produce cuando un usuario crea una aplicación desde Amazon SageMaker Studio, que solo está disponible en Studio, y luego revierte su experiencia predeterminada a Studio Classic. Como resultado, el usuario no puede eliminar una aplicación de Code Editor, basada en Code-OSS, Visual Studio Code (Open Source) o JupyterLab porque no puede acceder a la interfaz de usuario de Studio.

Para resolver este problema, notifique al administrador para que pueda eliminar la aplicación manualmente con la tecla AWS Command Line Interface ()AWS CLI.

EC2InsufficientCapacityError

Este problema se produce cuando intentas administrar un espacio y, en este momento, AWS no hay suficiente capacidad disponible bajo demanda para atender tu solicitud.

Para resolver este problema, siga este procedimiento.

  • Espere unos minutos. A continuación, vuelva a enviar la solicitud. La capacidad puede cambiar con frecuencia.

  • Ejecute el espacio con un tamaño o tipo de instancia alternativo.

nota

La capacidad está disponible en zonas de disponibilidad diferentes. Para maximizar la disponibilidad de capacidad para los usuarios, recomendamos configurar subredes en todas las zonas de disponibilidad. Studio vuelve a intentar todas las zonas de disponibilidad disponibles para el dominio.

La disponibilidad de los tipos de instancia varía según las regiones. Para ver una lista de los tipos de instancias compatibles por región, consulta los precios de Amazon SageMaker AI.

En la siguiente tabla se enumeran las familias de instancias y sus alternativas recomendadas.

Familia de instancias Tipo de CPU v CPUs Memoria (GiB) Tipo de GPU GPUs Memoria de GPU (GiB) Alternativa recomendada
G4dn Procesadores escalables Intel Xeon de 2.ª generación De 4 a 96 De 16 a 384 NVIDIA T4 Tensor Core De 1 a 8 16 por GPU G6
G5 Procesadores AMD EPYC de 2.ª generación De 4 a 192 De 16 a 768 Núcleo Tensor NVIDIA A10G De 1 a 8 24 por GPU G6e
G6 Procesadores AMD EPYC de 3.ª generación De 4 a 192 De 16 a 768 Núcleo NVIDIA L4 Tensor De 1 a 8 24 por GPU G4dn
G6e Procesadores AMD EPYC de 3.ª generación De 4 a 192 De 32 a 1536 Núcleo NVIDIA L40S Tensor De 1 a 8 48 por GPU G5, P4
P3 Procesadores escalables Intel Xeon De 8 a 96 De 61 a 768 NVIDIA Tesla V100 De 1 a 8 16 por GPU (32 por GPU para P3dn) G6e, P4
P4 Procesadores escalables Intel Xeon de 2.ª generación 96 1152 Núcleo Tensor NVIDIA A100 8 320 (640 para P4de) G6e
P5 Procesadores AMD EPYC de 3.ª generación 192 2000 Núcleo Tensor NVIDIA H100 8 640 P4de

Límite insuficiente (es necesario aumentar la cuota)

Este problema se produce cuando aparece el siguiente mensaje de error al ejecutar un espacio.

Error when creating application for space: ... : The account-level service limit is X Apps, with current utilization Y Apps and a request delta of 1 Apps. Please useService Quotasto request an increase for this quota.

Hay un límite predeterminado del número de instancias que se puede ejecutar en cada Región de AWS, que se determina por tipo de instancia. Este error significa que ha alcanzado ese límite.

Para resolver este problema, solicita un aumento del límite de instancias para el espacio en el Región de AWS que vas a lanzar el espacio. Para obtener más información, consulte Solicitud de un aumento de cuota.

Error al cargar la imagen personalizada

Este problema se produce cuando se elimina una imagen de SageMaker IA antes de separarla de tu dominio. Lo puede comprobar al acceder a la pestaña Entorno de su dominio.

Para resolver este problema, tendrá que crear una nueva imagen temporal con el mismo nombre que la eliminada, desasociar la imagen y, a continuación, eliminar la imagen temporal. Use las siguientes instrucciones para probarlo.

  1. Si aún no lo ha hecho, inicie la consola de SageMaker IA.

  2. En el panel de navegación de la izquierda, seleccione Dominios en Configuraciones de administración.

  3. Seleccione su dominio.

  4. Seleccione la pestaña Entorno. En esta página verá el mensaje de error.

  5. Copie el nombre de la imagen del ARN de la imagen.

  6. En el panel de navegación de la izquierda, seleccione Imágenes en Configuraciones de administración.

  7. Elija Crear imagen.

  8. Siga los pasos del procedimiento, pero asegúrese de que el nombre de la imagen sea el mismo que el nombre de la imagen que aparece arriba.

    Si no tiene ninguna imagen en un directorio de Amazon ECR, consulte las instrucciones en Creación de una imagen personalizada y envío a Amazon ECR.

  9. Una vez que hayas creado tu imagen de SageMaker IA, vuelve a la pestaña Entorno de tu dominio. Verá la imagen asociada a su dominio.

  10. Seleccione la imagen y elija Desasociar.

  11. Sigue las instrucciones para separar y eliminar la imagen de SageMaker IA temporal.