Types d'instances pour les algorithmes intégrés

La plupart des algorithmes Amazon SageMaker AI ont été conçus pour tirer parti du calcul par GPU à des fins d'entraînement. Malgré des coûts par instance plus élevés, GPUs entraînez-vous plus rapidement, ce qui les rend plus rentables. Les exceptions sont notées dans ce guide.

Pour découvrir les instances EC2 prises en charge, consultez le détail des instances.

La taille et le type des données peuvent jouer un rôle important dans la détermination de la configuration du matériel qui est la plus efficace. Lorsqu'un même modèle est entraîné de façon répétée, un test initial sur un éventail de types d'instances peut permettre de découvrir des configurations qui sont plus économiques à long terme. De plus, les algorithmes qui s'entraînent le plus efficacement GPUs peuvent ne pas nécessiter GPUs d'inférence efficace. Faites des tests pour déterminer quelle est la solution la plus rentable. Pour obtenir une recommandation d'instance automatique ou effectuer des tests de charge personnalisés, utilisez Amazon SageMaker Inference Recommender.

Pour plus d'informations sur les spécifications matérielles de l' SageMaker IA, consultez la tarification d'Amazon SageMaker AI.

UltraServers

UltraServers connectez plusieurs instances Amazon EC2 à l'aide d'une interconnexion accélératrice à faible latence et à bande passante élevée. Ils sont conçus pour gérer des AI/ML charges de travail à grande échelle nécessitant une puissance de traitement importante. Pour de plus amples informations, veuillez consulter Amazon EC2 UltraServers. Pour commencer UltraServers, consultez la section Réserver des plans de formation pour vos tâches ou HyperPod clusters de formation.

Pour commencer à utiliser UltraServers Amazon SageMaker AI, créez un plan de formation. Une fois que le vôtre UltraServer est disponible dans le plan de formation, créez un poste de formation avec l' AWS Management Console API Amazon SageMaker AI, ou AWS CLI. N'oubliez pas de spécifier le type d' UltraServer instance que vous avez acheté dans le plan de formation.

An UltraServer peut exécuter une ou plusieurs tâches à la fois. UltraServers regroupe les instances, ce qui vous donne une certaine flexibilité quant à la manière d'allouer vos UltraServer capacités au sein de votre organisation. Lorsque vous configurez vos tâches, tenez également compte des directives de sécurité des données de votre organisation, car les instances d'une tâche UltraServer peuvent accéder aux données d'une autre tâche dans une autre instance de la même entreprise UltraServer.

Si vous rencontrez des défaillances matérielles dans le UltraServer, l' SageMaker IA essaie automatiquement de résoudre le problème. Au fur et à mesure que l' SageMaker IA enquête et résout le problème, vous pouvez recevoir des notifications et des actions par le biais d' AWS Health événements ou AWS Support.

Une fois votre tâche de formation terminée, l' SageMaker IA arrête les instances, mais elles restent disponibles dans votre plan de formation si celui-ci est toujours actif. Pour maintenir une instance en UltraServer cours d'exécution après la fin d'une tâche, vous pouvez utiliser des pools de chaleur gérés.

Si la capacité de votre plan de formation est suffisante, vous pouvez même exécuter plusieurs tâches de formation UltraServers. Par défaut, chacune UltraServer est fournie avec 18 instances, dont 17 instances et une instance de rechange. Si vous avez besoin de plus d'instances, vous devez en acheter davantage UltraServers. Lorsque vous créez une tâche de formation, vous pouvez configurer la manière dont les tâches sont réparties à UltraServers l'aide du InstancePlacementConfig paramètre.

Si vous ne configurez pas le placement, l' SageMaker IA alloue automatiquement les emplois aux instances de votre. UltraServer Cette stratégie par défaut est basée sur le meilleur effort qui donne la priorité au remplissage de toutes les instances en une seule UltraServer avant d'en utiliser une autre. UltraServer Par exemple, si vous demandez 14 instances et que vous en avez 2 UltraServers dans votre plan de formation, SageMaker AI utilise toutes les instances de la première UltraServer. Si vous avez demandé 20 instances et que vous UltraServers en avez 2 dans votre plan de formation, SageMaker AI utilisera les 17 instances dans la première, UltraServer puis en utilisera 3 dans la seconde UltraServer. Les instances au sein d'un UltraServer même NVLink appareil servent à communiquer, mais les individus UltraServers utilisent Elastic Fabric Adapter (EFA), ce qui peut affecter les performances d'entraînement des modèles.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Formats de données courants pour l’inférence

Journaux