Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Perfilar y optimizar el rendimiento computacional
Cuando se entrenan modelos de aprendizaje profundo de última generación que aumentan rápidamente de tamaño, escalar el trabajo de entrenamiento de dichos modelos a un gran clúster de GPU e identificar los problemas de rendimiento computacional derivados de miles de millones y billones de operaciones y comunicaciones en cada iteración del proceso de descenso de gradientes se convierte en un desafío.
SageMaker AI proporciona herramientas de creación de perfiles para visualizar y diagnosticar problemas de computación tan complejos que surgen al ejecutar trabajos de entrenamiento en recursos de computación en la nube de AWS. SageMaker AI ofrece dos opciones de creación de perfiles: Generador de perfiles de Amazon SageMaker y un monitor de uso de recursos en Amazon SageMaker Studio Classic. Consulte las siguientes introducciones de las dos funcionalidades para obtener información rápida y saber cuál usar en función de sus necesidades.
Generador de perfiles de Amazon SageMaker
Generador de perfiles de Amazon SageMaker, es una funcionalidad de creación de perfiles y visualización de SageMaker AI que permite analizar en profundidad los recursos de computación aprovisionados y, al mismo tiempo, entrenar modelos de aprendizaje profundo y obtener visibilidad de los detalles de nivel operativo. Generador de perfiles de SageMaker proporciona módulos de Python para añadir anotaciones en todos los scripts de entrenamiento de PyTorch o TensorFlow y activar Generador de perfiles de SageMaker. Puede acceder a los módulos mediante el SDK de Python de Sagemaker y los contenedores de aprendizaje profundo de AWS.
Con Generador de perfiles de Sagemaker, puede realizar un seguimiento de todas las actividades de las CPU y las GPU, como las utilizaciones de CPU y GPU, las ejecuciones del kernel en las GPU, los lanzamientos del kernel en las CPU, las operaciones de sincronización, las operaciones de memoria entre las CPU y las GPU, las latencias entre los lanzamientos del kernel y las ejecuciones correspondientes y la transferencia de datos entre las CPU y las GPU.
Generador de perfiles de SageMaker también ofrece una interfaz de usuario (UI) que visualiza el perfil, un resumen estadístico de los eventos perfilados y la cronología de un trabajo de entrenamiento para hacer el seguimiento y comprender la relación temporal de los eventos entre las GPU y las CPU.
Para obtener más información sobre Generador de perfiles de SageMaker, consulte Generador de perfiles de Amazon SageMaker.
Supervisión de los recursos de computación de AWS en Amazon SageMaker Studio Classic
SageMaker AI también proporciona una interfaz de usuario en Studio Classic para supervisar la utilización de los recursos a un alto nivel, pero con mayor granularidad en comparación con las métricas de uso predeterminadas recopiladas de SageMaker AI a CloudWatch.
Para cualquier trabajo de entrenamiento que ejecute en SageMaker AI con el SageMaker Python SDK, SageMaker AI comienza a perfilar las métricas básicas de utilización de los recursos, como la utilización de la CPU, la utilización de la GPU, la utilización de la memoria de la GPU, la red y el tiempo de espera de E/S. Recopila estas métricas de uso de recursos cada 500 milisegundos.
En comparación con las métricas de Amazon CloudWatch, que recopilan las métricas a intervalos de 1 segundo, la funcionalidad de monitorización de SageMaker AI proporciona una granularidad más precisa de las métricas de utilización de los recursos en intervalos de 100 milisegundos (0,1 segundos), para que pueda profundizar en las métricas a nivel de una operación o un paso.
Para acceder al panel de control para supervisar las métricas de utilización de los recursos de un trabajo de entrenamiento, consulte SageMaker AI Debugger UI in SageMaker Studio Experiments.