Types d'instances pour les algorithmes intégrés
La plupart des algorithmes Amazon SageMaker AI ont été conçus afin d’exploiter la puissance de calcul des GPU pour l’entraînement. Malgré des coûts par instance plus élevés, les GPU entraînent plus rapidement, ce qui les rend plus rentables. Les exceptions sont notées dans ce guide.
Pour découvrir les instances EC2 prises en charge, consultez le détail des instances
La taille et le type des données peuvent jouer un rôle important dans la détermination de la configuration du matériel qui est la plus efficace. Lorsqu'un même modèle est entraîné de façon répétée, un test initial sur un éventail de types d'instances peut permettre de découvrir des configurations qui sont plus économiques à long terme. En outre, les algorithmes qui entraînent le plus efficacement sur les GPU peuvent ne pas avoir besoin de GPU pour optimiser l'inférence. Faites des tests pour déterminer quelle est la solution la plus rentable. Pour obtenir une recommandation automatique d'instance ou effectuer des tests de chargement personnalisés, utilisez Amazon SageMaker Inference Recommender.
Pour plus d’informations sur les spécifications matérielles de SageMaker AI, consultez les types d’instances ML Amazon SageMaker AI
UltraServers
Les UltraServers connectent plusieurs instances Amazon EC2 à l’aide d’une interconnexion accélératrice à faible latence et à bande passante élevée. Ils sont conçus pour gérer des charges de travail d’IA/ML à grande échelle nécessitant une puissance de traitement importante. Pour plus d’informations, consultez UltraServers Amazon EC2
Pour commencer à utiliser UltraServers sur Amazon SageMaker AI, créez un plan d’entraînement. Une fois votre UltraServer disponible dans le plan, créez une tâche d’entraînement avec AWS Management Console, l’API Amazon SageMaker AI ou AWS CLI. N’oubliez pas de spécifier quel type d’instance UltraServer vous avez acheté dans le plan d’entraînement.
Un UltraServer peut exécuter une ou plusieurs tâches à la fois. Les UltraServers regroupent les instances, ce qui vous offre une certaine flexibilité quant à la manière d’allouer les capacités correspondantes dans votre organisation. Lorsque vous configurez vos tâches, tenez également compte des directives de sécurité des données de votre entreprise, car les instances d’un UltraServer peuvent accéder aux données d’une autre tâche dans une autre instance du même UltraServer.
Si vous rencontrez des défaillances matérielles dans un UltraServer, SageMaker AI essaie automatiquement de résoudre le problème. Tandis que SageMaker AI étudie et résout le problème, vous pouvez recevoir des notifications et des actions via les événements AWS Health ou AWS Support.
Une fois la tâche d’entraînement terminée, SageMaker AI arrête les instances, mais elles restent disponibles dans votre plan tant que celui-ci est actif. Pour continuer à exécuter une instance sur un UltraServer après la fin d’une tâche, vous pouvez utiliser des groupes d’instances pré-initialisées gérés.
Si la capacité de votre plan est suffisante, vous pouvez même exécuter des tâches d’entraînement sur plusieurs UltraServers. Par défaut, chaque UltraServer est fourni avec 18 instances (17 instances et une de rechange). Si vous avez besoin de plus d’instances, vous devez acheter davantage d’UltraServers. Lorsque vous créez une tâche d’entraînement, vous pouvez configurer comment placer les tâches sur les UltraServers à l’aide du paramètre InstancePlacementConfig.
Quand vous ne configurez pas le placement des tâches, SageMaker AI les alloue automatiquement aux instances de votre UltraServer. Dans la mesure du possible, cette stratégie par défaut repose sur une logique qui consiste à remplir en priorité toutes les instances d’un même UltraServer avant d’en utiliser un autre. Par exemple, si vous demandez 14 instances et que votre plan d’entraînement comporte 2 UltraServers, SageMaker AI utilise toutes les instances du premier. Si vous demandez 20 instances et que votre plan d’entraînement comporte 2 UltraServers, SageMaker AI utilise les 17 instances du premier et 3 instances du second. Les instances d’un UltraServer utilisent NVLink pour communiquer, mais les UltraServers individuels utilisent Elastic Fabric Adapter (EFA), ce qui peut affecter les performances d’entraînement des modèles.