Modification de votre script d’entraînement pour affecter des groupes d’instances

Avec la configuration de clusters hétérogène décrite dans les sections précédentes, vous avez préparé l'environnement de SageMaker formation et les instances pour votre tâche de formation. Pour affecter davantage de groupes d’instances à certaines tâches d’entraînement et de traitement des données, l’étape suivante consiste à modifier votre script d’entraînement. Par défaut, la tâche d’entraînement crée simplement des répliques de script d’entraînement pour tous les nœuds, quelle que soit la taille de l’instance, ce qui peut entraîner une perte de performances.

Par exemple, si vous mélangez des instances CPU et GPU dans un cluster hétérogène tout en transmettant un script d'entraînement de réseau neuronal profond à l'entry_pointargument de l'estimateur SageMaker AI, le entry_point script est répliqué sur chaque instance. Cela signifie que, sans affectation de tâches appropriée, les instances de processeur exécutent également l’intégralité du script et lancent la tâche d’entraînement conçue pour l’entraînement distribuée sur les instances de processeur graphique. Par conséquent, vous devez apporter des modifications aux fonctions de traitement spécifiques que vous souhaitez décharger et exécuter sur les instances de processeur. Vous pouvez utiliser les variables d'environnement d' SageMaker IA pour récupérer les informations du cluster hétérogène et permettre à des processus spécifiques de s'exécuter en conséquence.

Lorsque votre tâche de formation commence, votre script de formation lit les informations relatives à l'environnement de SageMaker formation, notamment la configuration de clusters hétérogènes. La configuration contient des informations telles que les groupes d’instances actuels, les hôtes actuels de chaque groupe et le groupe dans lequel réside l’hôte actuel.

Vous pouvez demander des informations sur les groupes d'instances lors de la phase d'initialisation d'une tâche de formation à l' SageMaker IA de la manière suivante.

(Recommandé) Lire les informations relatives aux groupes d'instances à l'aide du kit SageMaker de formation

Utilisez le module Python d'environnement fourni par la bibliothèque de SageMaker boîtes à outils de formation. La bibliothèque de boîtes à outils est préinstallée dans les conteneurs du SageMaker framework pour TensorFlow et PyTorch, par conséquent, vous n'avez pas besoin d'une étape d'installation supplémentaire lorsque vous utilisez les conteneurs prédéfinis. Il s'agit de la méthode recommandée pour récupérer les variables d'environnement d' SageMaker IA en modifiant le moins de code dans votre script d'entraînement.


from sagemaker_training import environment

env = environment.Environment()

Variables d'environnement liées à la SageMaker formation générale et aux clusters hétérogènes :

env.is_hetero : renvoie un résultat booléen, qu’un cluster hétérogène soit configuré ou non.
env.current_host : renvoie l’hôte actuel.
env.current_instance_type : renvoie le type d’instance de l’hôte actuel.
env.current_instance_group : renvoie le nom du groupe d’instances actuel.
env.current_instance_group_hosts : renvoie la liste des hôtes du groupe d’instances actuel.
env.instance_groups : renvoie une liste des noms de groupes d’instances utilisés pour l’entraînement.
env.instance_groups_dict : renvoie la configuration de cluster hétérogène complète de la tâche d’entraînement.
env.distribution_instance_groups— Renvoie la liste des groupes d'instances affectés au distribution paramètre de la classe d'estimateur SageMaker AI.
env.distribution_hosts— Renvoie la liste des hôtes appartenant aux groupes d'instances affectés au distribution paramètre de la classe d'estimateur SageMaker AI.

Par exemple, considérez l’exemple suivant d’un cluster hétérogène composé de deux groupes d’instances.


from sagemaker.instance_group import InstanceGroup

instance_group_1 = InstanceGroup(
    "instance_group_1", "ml.c5.18xlarge", 1)
instance_group_2 = InstanceGroup(
    "instance_group_2", "ml.p3dn.24xlarge", 2)

La sortie de env.instance_groups_dict de l’exemple de cluster hétérogène doit être semblable à ce qui suit.


{
    "instance_group_1": {
        "hosts": [
            "algo-2"
        ],
        "instance_group_name": "instance_group_1",
        "instance_type": "ml.c5.18xlarge"
    },
    "instance_group_2": {
        "hosts": [
            "algo-3",
            "algo-1"
        ],
        "instance_group_name": "instance_group_2",
        "instance_type": "ml.p3dn.24xlarge"
    }
}

(Facultatif) Lecture des informations du groupe d’instances à partir du fichier JSON de configuration de ressources

Si vous préférez récupérer les variables d’environnement au format JSON, vous pouvez directement utiliser le fichier JSON de configuration des ressources. Le fichier JSON d'une instance d' SageMaker entraînement se trouve /opt/ml/input/config/resourceconfig.json par défaut à.


file_path = '/opt/ml/input/config/resourceconfig.json'
config = read_file_as_json(file_path)
print(json.dumps(config, indent=4, sort_keys=True))

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Exécutez une formation distribuée sur un cluster hétérogène dans Amazon AI SageMaker

Utilisation de l'entraînement progressif