Depurador de Amazon SageMaker
Depure los tensores de salida del modelo de los trabajos de entrenamiento de machine learning en tiempo real y detecte problemas no convergentes con el depurador de Amazon SageMaker.
Características del depurador de Amazon SageMaker
Es posible que un trabajo de entrenamiento sobre el machine learning (ML) presente problemas de sobreajuste, saturación de las funciones de activación y desaparición de los gradientes, lo cual podría comprometer el desempeño del modelo.
El depurador de SageMaker proporciona las herramientas necesarias para depurar los trabajos de entrenamiento y resolver estos problemas a fin de mejorar el desempeño del modelo. El depurador también ofrece herramientas capaces de enviar alertas en caso de detectar anomalías durante el entrenamiento, tomar medidas para resolver los problemas e identificar la causa raíz de los mismos mediante la visualización de las métricas y los tensores recopilados.
El depurador de SageMaker es compatible con los marcos Apache MXNet, PyTorch, TensorFlow y XGBoost. Para obtener más información sobre los marcos disponibles y las versiones compatibles con el depurador de SageMaker, consulte Marcos y algoritmos compatibles.
El flujo de trabajo del depurador de alto nivel es el siguiente:
-
Modifique su script de entrenamiento con el Python SDK del
sagemaker-debuggersi es necesario. -
Configure un trabajo de entrenamiento de SageMaker con el depurador de SageMaker.
-
Configure mediante la API Estimator de SageMaker AI (para SDK de Python).
-
Configure con la solicitud
CreateTrainingJobde SageMaker AI (para Boto3 o CLI). -
Configure contenedores de entrenamiento personalizados con el depurador de SageMaker.
-
-
Inicie un trabajo de entrenamiento y supervise los problemas de entrenamiento en tiempo real.
-
Reciba alertas y tome medidas rápidas en caso de problemas relacionados con el entrenamiento.
-
Reciba mensajes de texto y correos electrónicos y detenga los trabajos de entrenamiento en caso de que se hayan detectado problemas de entrenamiento con Uso de las acciones integradas del depurador para reglas.
-
Configure sus propias acciones con los eventos de Amazon CloudWatch y AWS Lambda.
-
-
Conozca detalladamente el análisis de los problemas de entrenamiento.
-
Para depurar los tensores de salida del modelo, consulte Visualizar los tensores de salida del depurador en TensorBoard.
-
-
Solucione los problemas, tenga en cuenta las sugerencias proporcionadas por el depurador y repita los pasos 1 a 5 hasta optimizar el modelo y lograr la precisión deseada.
La guía para desarrolladores del depurador de SageMaker explica los siguientes temas.