Planification de vos flux de travail ML - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Planification de vos flux de travail ML

Avec Amazon SageMaker AI, vous pouvez gérer l'ensemble de votre flux de travail ML lorsque vous créez des ensembles de données, effectuez des transformations de données, créez des modèles à partir de données et déployez vos modèles sur des points de terminaison à des fins d'inférence. Si vous effectuez régulièrement un sous-ensemble d’étapes de votre flux de travail, vous pouvez également choisir d’exécuter ces étapes selon une planification. Par exemple, vous pouvez planifier une tâche dans SageMaker Canvas pour exécuter une transformation sur de nouvelles données toutes les heures. Dans un autre scénario, vous pouvez planifier une tâche hebdomadaire pour surveiller la dérive du modèle que vous avez déployé. Vous pouvez spécifier une planification récurrente d’un intervalle de temps quelconque : vous pouvez itérer toutes les secondes, toutes les minutes, tous les jours, toutes les semaines, tous les mois ou le 3e vendredi de chaque mois à 15h00.

Les scénarios suivants récapitulent les options qui s’offrent à vous en fonction de votre cas d’utilisation.
  • Cas d’utilisation 1 : génération et planification de votre flux de travail ML dans un environnement sans programmation. Pour les débutants ou les novices en matière d' SageMaker IA, vous pouvez utiliser Amazon SageMaker Canvas pour créer votre flux de travail ML et créer des exécutions planifiées à l'aide du planificateur basé sur l'interface utilisateur de Canvas.

  • Cas d’utilisation 2 : génération de votre flux de travail dans un bloc-notes Jupyter unique et utilisation d’un planificateur sans programmation. Les praticiens ML expérimentés peuvent utiliser du code pour générer leur flux de travail ML dans un bloc-notes Jupyter et utiliser l’option de planification sans programmation disponible avec le widget Tâches de bloc-notes. Si votre flux de travail ML se compose de plusieurs blocs-notes Jupyter, vous pouvez utiliser la fonctionnalité de planification du kit SDK Python de Pipelines, décrite dans le cas d’utilisation 3.

  • Cas d’utilisation 3 : génération et planification de votre flux de travail ML à l’aide de Pipelines. Les utilisateurs avancés peuvent utiliser le SDK Amazon SageMaker Python, l'éditeur visuel Amazon SageMaker Pipelines ou les options de EventBridge planification Amazon disponibles avec Pipelines. Vous pouvez créer un flux de travail ML composé d'étapes comprenant des opérations avec divers AWS services et fonctionnalités d' SageMaker IA, tels qu'Amazon EMR.

Descripteur Cas d’utilisation 1 Cas d’utilisation 2 Cas d’utilisation 3
SageMaker Fonctionnalité d'IA Traitement des données Amazon SageMaker Canvas et planification du flux de travail ML Widget de planification des tâches de bloc-notes (interface utilisateur) Options de planification du kit SDK Python de Pipelines
Description Avec Amazon SageMaker Canvas, vous pouvez planifier des exécutions automatiques des étapes de traitement des données et, dans le cadre d'une procédure distincte, des mises à jour automatiques des ensembles de données. Vous pouvez également planifier de façon indirecte l’intégralité de votre flux de travail ML en paramétrant une configuration qui exécute une prédiction par lots chaque fois qu’un jeu de données spécifique est mis à jour. Pour le traitement automatique des données et les mises à jour des ensembles de données, SageMaker Canvas fournit un formulaire de base dans lequel vous sélectionnez une heure et une date de début ainsi qu'un intervalle de temps entre les exécutions (ou une expression cron si vous planifiez une étape de traitement des données). Pour en savoir plus sur la planification des étapes de traitement des données, consultez Création d’une planification pour traiter automatiquement les nouvelles données. Pour plus d’informations sur la planification des mises à jour des jeux de données et des prédictions par lots, consultez Comment gérer les automatisations. Si vous avez généré votre flux de travail de traitement des données et de pipeline dans un bloc-notes Jupyter individuel, vous pouvez utiliser le widget Tâches de bloc-notes pour exécuter votre bloc-notes à la demande ou selon une planification. Le widget Tâches de bloc-notes affiche un formulaire de base dans lequel vous spécifiez le type de calcul, la planification d’exécution et des paramètres personnalisés facultatifs. Vous définissez votre planification d’exécution en sélectionnant un intervalle basé sur le temps ou en insérant une expression cron. Le widget est automatiquement installé dans Studio, ou vous pouvez effectuer une installation supplémentaire pour utiliser cette fonctionnalité dans votre JupyterLab environnement local. Pour plus d’informations sur les tâches de bloc-notes, consultez SageMaker Emplois sur ordinateur portable. Vous pouvez utiliser les fonctionnalités de planification du SageMaker SDK si vous avez implémenté votre flux de travail ML avec Pipelines. Votre pipeline peut inclure des étapes telles que le peaufinage, le traitement des données et le déploiement. Pipelines prend en charge deux méthodes de planification de votre pipeline. Vous pouvez créer une EventBridge règle Amazon ou utiliser le PipelineScheduleconstructeur du SageMaker SDK ou l'éditeur visuel Amazon SageMaker Pipelines pour définir un calendrier. Pour plus d’informations sur les options de planification disponibles dans Pipelines, consultez Planification d’exécutions d’un pipeline.
Optimisé pour Fournit une option de planification pour un flux de travail SageMaker Canvas ML Fournit une option de planification basée sur l’interface utilisateur pour les flux de travail ML basés sur un bloc-notes Jupyter Fournit un SageMaker SDK ou une option de EventBridge planification pour les flux de travail ML
Considérations Vous pouvez planifier votre flux de travail avec le cadre sans programmation Canvas, mais les mises à jour des jeux de données et les mises à jour des transformations par lots peuvent gérer jusqu’à 5 Go de données. Vous pouvez planifier un bloc-notes à l’aide du formulaire de planification basé sur l’interface utilisateur, mais pas plusieurs blocs-notes dans la même tâche. Pour planifier plusieurs blocs-notes, utilisez la solution basée sur le code du kit SDK Pipelines décrite dans le cas d’utilisation 3. Vous pouvez utiliser les fonctionnalités de planification plus avancées (basées sur le kit SDK) fournies par Pipelines, mais vous devez vous référer à la documentation de l’API pour spécifier les options correctes plutôt que de les sélectionner dans un menu d’options basé sur l’interface utilisateur.
Environnement recommandé Amazon SageMaker Canvas Studio, JupyterLab environnement local Studio, JupyterLab environnement local, n'importe quel éditeur de code

Ressources supplémentaires

SageMaker L'IA propose les options supplémentaires suivantes pour planifier vos flux de travail.