Exemples de blocs-notes sur Amazon SageMaker Autopilot - Amazon SageMaker AI

Exemples de blocs-notes sur Amazon SageMaker Autopilot

Les blocs-notes suivants sont des exemples pratiques qui abordent différents cas d'utilisation d'Autopilot.

Vous trouverez tous les blocs-notes d’Autopilot dans le répertoire autopilot du référentiel d’exemples GitHub de SageMaker AI.

Nous recommandons de cloner l’intégralité du référentiel Git dans Studio Classic pour accéder aux blocs-notes et les exécuter directement. Pour en savoir plus sur la manière de cloner un référentiel Git dans Studio Classic, consultez Clonage d’un référentiel Git dans Amazon SageMaker Studio Classic.

Cas d'utilisation Description
Inférence sans serveur

Par défaut, Autopilot permet de déployer les modèles générés sur des points de terminaison d'inférence en temps réel. Dans ce référentiel, le bloc-notes explique comment déployer des modèles Autopilot entraînés avec les modes ENSEMBLING et HYPERPARAMETER OPTIMIZATION (HPO) sur des points de terminaison sans serveur. Les points de terminaison sans serveur lancent automatiquement les ressources de calcul et les mettent à l’échelle en fonction du trafic, éliminant ainsi le besoin de choisir des types d’instances ou de gérer des politiques de mise à l’échelle.

Sélection de fonctionnalités personnalisées

Autopilot inspecte votre jeu de données et exécute un certain nombre de candidats pour déterminer la combinaison optimale d'étapes de prétraitement des données, d'algorithmes de machine learning et d'hyperparamètres. Vous pouvez aisément effectuer un déploiement sur un point de terminaison en temps réel ou pour un traitement par lots.

Dans certains cas, vous voudrez peut-être avoir la possibilité d'intégrer à Autopilot un code de traitement des données personnalisé. Par exemple, vos jeux de données peuvent contenir un grand nombre de variables indépendantes et vous souhaiterez peut-être incorporer une étape de sélection de fonctionnalité personnalisée afin de supprimer d'abord les variables non pertinentes. Le jeu de données plus petit qui en résulte peut ensuite être utilisé pour lancer une tâche Autopilot. En fin de compte, vous souhaiterez également inclure à la fois le code de traitement personnalisé et les modèles provenant d'Autopilot pour le traitement en temps réel ou par lots.

Exemple de pipeline

Alors qu'Autopilot rationalise le processus de création de modèles de ML, les ingénieurs MLOps restent responsables de la création, de l'automatisation et de la gestion des flux de travail ML de bout en bout en production. SageMaker Pipelines peut aider à automatiser diverses étapes du cycle de vie de machine learning, telles que le prétraitement des données, l'entraînement des modèles, le réglage des hyperparamètres, l'évaluation des modèles et le déploiement. Ce bloc-notes montre comment incorporer Autopilot dans un flux de travail d'entraînement AutoML de bout en bout de SageMaker Pipelines. Pour lancer une expérience Autopilot dans Pipelines, vous devez créer un flux de travail de création de modèles en écrivant un code d'intégration personnalisé à l'aide de Pipelines Lambda ou d'étapes de traitement. Pour plus d'informations, reportez-vous à Move Amazon SageMaker Autopilot ML models from experimentation to production using Amazon SageMaker Pipelines.

Si vous utilisez Autopilot en mode ensembliste, vous pouvez vous référer à l'exemple de bloc-notes qui montre comment utiliser l'étape AutoML native dans l'étape AutoML native de SageMaker Pipelines. Autopilot étant pris en charge en tant qu'étape native dans Pipelines, vous pouvez désormais ajouter une étape d'entraînement automatique (AutoMLStep) à vos pipelines et invoquer une expérience Autopilot en mode ensembliste.

Direct marketing with Amazon SageMaker Autopilot

Ce bloc-notes montre comment le jeu de données Bank Marketing est utilisé pour prédire si un client va réaliser un dépôt à terme dans une banque. Vous pouvez utiliser Autopilot sur ce jeu de données pour obtenir le pipeline ML le plus précis en explorant les options contenues dans divers pipelines candidats. Autopilot génère chaque candidat selon une procédure en deux étapes. La première étape effectue une ingénierie de fonctionnalité automatisée sur le jeu de données. La deuxième étape entraîne et règle un algorithme pour produire un modèle. Le bloc-notes contient des instructions sur la façon d'entraîner le modèle et de le déployer pour effectuer une inférence par lots à l'aide du meilleur candidat.

Customer Churn Prediction with Amazon SageMaker Autopilot

Ce bloc-notes décrit l’utilisation du machine learning pour l’identification automatisée des clients mécontents, également connue sous le nom de prédiction de perte de clients. Cet exemple montre comment analyser un jeu de données accessible au public et mener une ingénierie des fonctionnalités dessus. Il montre ensuite comment régler un modèle en sélectionnant le pipeline le plus performant ainsi que les hyperparamètres optimaux pour l'algorithme d'entraînement. Il montre enfin comment déployer le modèle sur un point de terminaison hébergé et comment évaluer ses prédictions par rapport à la vérité du terrain. Cependant, les modèles ML fournissent rarement des prédictions parfaites. C'est pourquoi ce cahier montre également comment intégrer les coûts relatifs des erreurs de prédiction lors de la détermination du résultat financier de l'utilisation de ML.

Top Candidates Customer Churn Prediction with Amazon SageMaker Autopilot and Batch Transform (Python SDK)

Ce bloc-notes décrit aussi l’utilisation du machine learning pour l’identification automatisée des clients mécontents, également connue sous le nom de prédiction de perte de clients. Ce bloc-notes montre comment configurer le modèle pour obtenir la probabilité d'inférence, sélectionner les N modèles principaux, et réaliser une transformation par lots sur un jeu de test retenu pour évaluation.

Note

Ce bloc-notes fonctionne avec le kit SDK SageMaker Python >= 1.65.1 publié le 19/6/2020.

Bringing your own data processing code to Amazon SageMaker Autopilot

Ce bloc-notes explique comment incorporer et déployer un code de traitement de données personnalisé lors de l’utilisation d’Amazon SageMaker Autopilot. Il ajoute une étape de sélection de fonctions personnalisée pour supprimer des variables non pertinentes d'une tâche Autopilot. Il montre ensuite comment déployer à la fois le code de traitement personnalisé et les modèles générés par Autopilot sur un point de terminaison en temps réel ou pour un traitement par lots.

Blocs-notes supplémentaires

Vous trouverez d'autres blocs-notes illustrant d'autres cas d'utilisation tels que la transformation par lots, les prévisions de séries temporelles, etc., dans le répertoire racine.