Charges de travail de transformation des données avec SageMaker Processing
SageMaker Processing fait référence aux capacités SageMaker AI permettant d’exécuter des tâches de prétraitement et de post-traitement des données, d’ingénierie des caractéristiques et d’évaluation des modèles sur l’infrastructure entièrement gérée SageMaker AI. Ces tâches sont exécutées en tant que tâches de traitement. Vous trouverez ci-dessous des informations et des ressources pour en savoir plus sur SageMaker Processing.
Avec l’API SageMaker Processing, les scientifiques des données peuvent exécuter des scripts et des blocs-notes pour traiter, transformer et analyser les jeux de données afin de les préparer au machine learning. Combiné aux autres tâches essentielles de machine learning fournies par SageMaker AI, comme l’entraînement et l’hébergement, Processing vous procure les avantages d’un environnement de machine learning entièrement géré, comprenant notamment la prise en charge de la sécurité et de la conformité intégrée dans SageMaker AI. Vous avez la possibilité d’utiliser les conteneurs de traitement de données intégrés ou d’apporter vos propres conteneurs pour une logique de traitement personnalisée, et d’envoyer des tâches à exécuter sur l’infrastructure gérée SageMaker AI.
Note
Vous pouvez créer une tâche de traitement par programmation en appelant l’action d’API CreateProcessingJob dans n’importe quel langage pris en charge par SageMaker AI, ou en utilisant l’AWS CLI. Pour en savoir plus sur la façon dont cette action d’API se traduit par une fonction dans le langage de votre choix, consultez la section Voir aussi de la page CreateProcessingJob et choisissez un kit SDK. À titre d’exemple, pour les utilisateurs de Python, reportez-vous à la section Amazon SageMaker Processing
Le diagramme suivant illustre comment Amazon SageMaker AI lance une tâche de traitement. Amazon SageMaker AI prend votre script, copie vos données depuis Amazon Simple Storage Service (Amazon S3), puis extrait un conteneur de traitement. L’infrastructure sous-jacente d’une tâche de traitement est entièrement gérée par Amazon SageMaker AI. Après qu’une tâche de traitement a été envoyée, SageMaker AI lance les instances de calcul, traite et analyse les données d’entrée, et libère les ressources une fois le processus terminé. La sortie de la tâche de traitement est stockée dans le compartiment Amazon S3 que vous avez spécifié.
Note
Vos données d'entrée doivent être stockées dans un compartiment Amazon S3. Vous pouvez également utiliser Amazon Athena ou Amazon Redshift comme sources d'entrée.
Astuce
Pour découvrir les bonnes pratiques en matière de calcul distribué pour l'entraînement au machine learning (ML) et les tâches de traitement en général, consultez Bonnes pratiques d’informatique distribuée avec SageMaker AI.
Utilisation d'exemples de blocs-notes Amazon SageMaker Processing
Nous fournissons deux exemples de blocs-notes Jupyter qui montrent comment effectuer le prétraitement des données, l'évaluation des modèles ou les deux.
Pour obtenir un exemple de bloc-notes qui montre comment exécuter des scripts scikit-learn pour effectuer le prétraitement des données, ainsi que l’entraînement et l’évaluation des modèles avec le kit SageMaker Python SDK pour Processing, consultez scikit-learn Processing
Pour obtenir un exemple de bloc-notes qui montre comment utiliser Amazon SageMaker Processing pour effectuer le prétraitement des données distribuées avec Spark, consultez Distributed Processing (Spark)
Pour obtenir des instructions expliquant comment créer des instances de blocs-notes Jupyter et y accéder afin d’exécuter ces exemples dans SageMaker AI, consultez Instances de bloc-notes Amazon SageMaker. Après avoir créé et ouvert une instance de bloc-notes, cliquez sur l’onglet Exemples SageMaker AI pour afficher la liste de tous les exemples SageMaker AI. Pour ouvrir un bloc-notes, choisissez son onglet Use (Utiliser), puis Create copy (Créer une copie).
Surveillance des tâches Amazon SageMaker Processing avec les journaux et les métriques CloudWatch
Amazon SageMaker Processing fournit des journaux et des métriques Amazon CloudWatch pour surveiller les tâches de traitement. CloudWatch fournit le processeur, le GPU, la mémoire, la mémoire du GPU, les métriques de disque et la journalisation des événements. Pour plus d’informations, consultez Métriques Amazon SageMaker AI dans Amazon CloudWatch et CloudWatch Logs pour Amazon SageMaker AI.