Activation de la création de points de contrôle - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Activation de la création de points de contrôle

Après que vous avez activé l’utilisation des points de contrôle, SageMaker AI les enregistre dans Amazon S3 et synchronise votre tâche d’entraînement avec le compartiment S3 correspondant. Vous pouvez utiliser des compartiments S3 à usage général ou des compartiments de répertoires S3 pour vos points de contrôle.

Diagramme d’architecture de l’écriture des points de contrôle pendant l’entraînement.

L’exemple suivant explique comment configurer les chemins de points de contrôle lors de la construction d’un estimateur SageMaker AI. Pour activer la création de points de reprise, ajoutez les paramètres checkpoint_s3_uri et checkpoint_local_path à votre estimateur.

L’exemple de modèle suivant explique comment créer un estimateur SageMaker AI générique et activer la création de points de contrôle. Vous pouvez utiliser ce modèle pour les algorithmes pris en charge en spécifiant le paramètre image_uri. Pour rechercher les URI d’image Docker pour les algorithmes avec prise en charge de points de contrôle par SageMaker AI, consultez Chemins de registre Docker et exemple de code. Vous pouvez également remplacer estimator et Estimator par d’autres classes d’estimateur et classes parentes d’estimateur de cadres SageMaker AI telles que TensorFlow, PyTorch, MXNet, HuggingFace et XGBoost.

import sagemaker from sagemaker.estimator import Estimator bucket=sagemaker.Session().default_bucket() base_job_name="sagemaker-checkpoint-test" checkpoint_in_bucket="checkpoints" # The S3 URI to store the checkpoints checkpoint_s3_bucket="s3://{}/{}/{}".format(bucket, base_job_name, checkpoint_in_bucket) # The local path where the model will save its checkpoints in the training container checkpoint_local_path="/opt/ml/checkpoints" estimator = Estimator( ... image_uri="<ecr_path>/<algorithm-name>:<tag>" # Specify to use built-in algorithms output_path=bucket, base_job_name=base_job_name, # Parameters required to enable checkpointing checkpoint_s3_uri=checkpoint_s3_bucket, checkpoint_local_path=checkpoint_local_path )

Les deux paramètres suivants spécifient les chemins d’accès pour la création de points de contrôle :

  • checkpoint_local_path : spécifiez le chemin d’accès local où le modèle enregistre les points de contrôle périodiquement dans un conteneur d’entraînement. Le chemin d’accès par défaut est défini sur '/opt/ml/checkpoints'. Si vous utilisez d’autres cadres ou que vous importez votre propre conteneur d’entraînement, veillez à ce que la configuration de point de contrôle de votre script d’entraînement spécifie le chemin d’accès à '/opt/ml/checkpoints'.

    Note

    Nous vous recommandons de spécifier les chemins d’accès locaux comme '/opt/ml/checkpoints' pour des raisons de cohérence avec les paramètres par défaut des points de contrôle SageMaker AI. Si vous préférez spécifier votre propre chemin d’accès local, veillez à faire correspondre le chemin d’enregistrement de points de contrôle dans votre script d’entraînement et le paramètre checkpoint_local_path des estimateurs SageMaker AI.

  • checkpoint_s3_uri : l’URI vers un compartiment S3 où les points de contrôle sont stockés en temps réel. Vous pouvez spécifier un compartiment S3 à usage général ou un compartiment de répertoires S3 pour stocker vos points de contrôle. Pour plus d’informations sur les compartiments de répertoire S3, consultez Compartiments de répertoire dans le Guide de l’utilisateur Amazon Simple Storage Service.

Pour trouver la liste complète des paramètres d’estimateur SageMaker AI, consultez API Estimator dans la documentation du kit Amazon SageMaker Python SDK.