Configurations avancées de génération de modèle - Amazon SageMaker AI

Configurations avancées de génération de modèle

Amazon SageMaker Canvas prend en charge différents paramètres avancés que vous pouvez configurer lors de la génération d’un modèle. La page suivante répertorie tous les paramètres avancés ainsi que des informations supplémentaires sur leurs options et configurations.

Note

Les paramètres avancés suivants ne sont actuellement pris en charge que pour les types de modèles de prévision numériques, catégoriels et de séries temporelles.

Paramètres avancés de modèle de prédiction numérique et catégoriel

Canvas prend en charge les paramètres avancés suivants pour les types de modèles de prédiction numériques et catégoriels.

Métrique d’objectif

La métrique d’objectif est la métrique que vous voulez que Canvas optimise lors de la génération de votre modèle. Si vous ne sélectionnez aucune métrique, Canvas en choisit une pour vous par défaut. Pour une description des métriques disponibles, consultez Référence des métriques.

Méthode d’entraînement

Canvas peut sélectionner automatiquement la méthode d’entraînement en fonction de la taille du jeu de données. Vous pouvez également la sélectionner manuellement. Vous pouvez choisir parmi les méthodes d’entraînement suivantes :

  • Assemblage : SageMaker AI utilise la bibliothèque AutoGluon pour entraîner plusieurs modèles de base. Pour trouver la meilleure combinaison pour votre jeu de données, le mode ensembliste exécute entre 5 et 10 essais avec différentes valeurs de modèle et de méta-paramètres. Ensuite, ces modèles sont combinés à l’aide d’une méthode ensembliste par empilement pour créer un modèle prédictif optimal. Pour obtenir la liste des algorithmes pris en charge par le mode ensembliste pour les données tabulaires, consultez la section Algorithmes suivante.

  • Optimisation des hyperparamètres (HPO) : SageMaker AI identifie la meilleure version d’un modèle en ajustant les hyperparamètres à l’aide de l’optimisation bayésienne ou de l’optimisation multifidélité en exécutant les tâches d’entraînement sur votre jeu de données. Le mode HPO sélectionne les algorithmes les plus pertinents pour votre jeu de données et la meilleure gamme d’hyperparamètres pour ajuster vos modèles. Pour ajuster vos modèles, le mode HPO exécute jusqu’à 100 essais (par défaut) afin de trouver les valeurs d’hyperparamètres optimales dans la plage sélectionnée. Si la taille de votre jeu de données est inférieure à 100 Mo, SageMaker AI utilise l’optimisation bayésienne. SageMaker AI choisit l’optimisation multifidélité si la taille de votre jeu de données est supérieure à 100 Mo.

    Pour obtenir la liste des algorithmes pris en charge par le mode HPO pour les données tabulaires, consultez la section Algorithmes suivante.

  • Automatique : SageMaker AI choisit automatiquement le mode Assemblage ou le mode HPO en fonction de la taille de votre jeu de données. Si la taille de votre jeu de données est supérieure à 100 Mo, SageMaker AI choisit le mode HPO. Dans le cas contraire, il choisit le mode Assemblage.

Algorithmes

En mode Assemblage, Canvas prend en charge les algorithmes de machine learning suivants :

  • LightGBM : framework optimisé qui utilise des algorithmes arborescents avec renforcement de gradient. Cet algorithme utilise des arborescences qui se développent en largeur plutôt qu'en profondeur, et est hautement optimisé en termes de vitesse.

  • CatBoost : framework qui utilise des algorithmes arborescents avec renforcement de gradient. Optimisé pour la gestion des variables catégorielles.

  • XGBoost : framework qui utilise des algorithmes arborescents avec renforcement de gradient qui se développent en largeur plutôt qu'en profondeur.

  • Random Forest (Forêt aléatoire) : algorithme arborescent qui utilise plusieurs arbres de décision sur des sous-échantillons aléatoires des données avec remplacement. Les arbres sont divisés en nœuds optimaux à chaque niveau. La moyenne des décisions de chaque arbre est calculée afin d'éviter tout surajustement et d'améliorer les prédictions.

  • Extra Trees (Arbres supplémentaires) : algorithme arborescent qui utilise plusieurs arbres de décision sur l'ensemble du jeu de données. Les arbres sont divisés aléatoirement à chaque niveau. La moyenne des décisions de chaque arbre est calculée afin d'éviter tout surajustement et d'améliorer les prédictions. Les arbres supplémentaires ajoutent un degré de randomisation par rapport à l'algorithme Random Forest (Forêt aléatoire).

  • Linear Models (Modèles linéaires) : framework qui utilise une équation linéaire pour modéliser la relation entre deux variables dans les données observées.

  • Neural network torch (Réseau neuronal torch) : modèle de réseau neuronal implémenté à l'aide de Pytorch.

  • Neural network fast.ai (Réseau neuronal fast.ai) : modèle de réseau neuronal implémenté à l’aide de fast.ai.

En mode HPO, Canvas prend en charge les algorithmes de machine learning suivants :

  • XGBoost : algorithme d’apprentissage supervisé qui tente de prédire avec précision une variable cible en combinant un ensemble d’estimations à partir d’un jeu de modèles plus simples et plus faibles.

  • Algorithme de deep learning : perceptron multicouche (MLP) et réseau neuronal artificiel à action directe. Cet algorithme traite les données qui ne sont pas linéairement séparables.

Fractionnement des données

Vous avez la possibilité de spécifier comment vous souhaitez répartir votre jeu de données entre le jeu d’entraînement (la partie de votre jeu de données utilisée pour générer le modèle) et le jeu de validation (la partie de votre jeu de données utilisée pour vérifier l’exactitude du modèle). Par exemple, un rapport de fractionnement courant prévoit 80 % pour l’entraînement et 20 % pour la validation, 80 % de vos données étant utilisées pour générer le modèle tandis que 20 % sont enregistrées pour mesurer les performances du modèle. Si vous ne spécifiez pas de rapport personnalisé, Canvas divise automatiquement votre jeu de données.

Nombre maximal de candidats

Note

Cette fonctionnalité est disponible uniquement en mode d’entraînement HPO.

Vous pouvez spécifier le nombre maximal de modèles candidats que Canvas génère lors de la génération de votre modèle. Nous vous recommandons d’utiliser le nombre par défaut de candidats, à savoir 100, pour générer les modèles les plus précis. Le nombre maximal que vous pouvez spécifier est 250. La diminution du nombre de modèles candidats peut avoir un impact sur l’exactitude de votre modèle.

Durée maximale d’exécution

Vous pouvez spécifier la durée d’exécution maximale des tâches ou le temps maximal que Canvas passe à générer votre modèle. Passé le délai imparti, Canvas arrête la génération et sélectionne le meilleur modèle candidat.

La durée maximale que vous pouvez spécifier est de 720 heures. Nous vous recommandons vivement de maintenir la durée d’exécution maximale des tâches au-dessus de 30 minutes pour veiller à ce que Canvas dispose de suffisamment de temps pour générer des modèles candidats et terminer la génération de votre modèle.

Paramètres avancés du modèle de prévision de séries temporelles

Pour les modèles de prévision de séries temporelles, Canvas prend en charge la métrique d’objectif, répertoriée dans la section précédente.

Les modèles de prévision de séries temporelles prennent également en charge le paramètre avancé suivant :

Sélection d’algorithmes

Lorsque vous générez un modèle de prévision de séries temporelles, Canvas utilise un ensemble (ou une combinaison) d’algorithmes statistiques et de machine learning pour fournir des prédictions de séries temporelles très précises. Par défaut, Canvas sélectionne la combinaison optimale de tous les algorithmes disponibles en fonction des séries temporelles figurant dans votre jeu de données. Vous avez toutefois la possibilité de spécifier un ou plusieurs algorithmes à utiliser pour votre modèle de prévision. Dans ce cas, Canvas détermine la combinaison optimale en utilisant uniquement les algorithmes que vous avez sélectionnés. Si vous ne savez pas quel algorithme sélectionner pour entraîner votre modèle, nous vous recommandons de choisir tous les algorithmes disponibles.

Note

La sélection d’algorithmes n’est prise en charge que pour les générations standard. Si vous ne sélectionnez aucun algorithme dans les paramètres avancés, SageMaker AI exécute par défaut une génération rapide et entraîne les modèles candidats à l’aide d’un seul algorithme d’apprentissage basé sur une arborescence. Pour plus d’informations sur la différence entre les générations rapides et les générations standard, consultez Fonctionnement des modèles personnalisés.

Canvas prend en charge les algorithmes de prévision de séries temporelles suivants :

  • ARIMA (Autoregressive Integrated Moving Average) : modèle de séries temporelles stochastique simple qui utilise l’analyse statistique pour interpréter les données et effectuer des prédictions futures. Cet algorithme est utile pour les jeux de données simples comportant moins de 100 séries temporelles.

  • CNN-QR (Convolutional Neural Network - Quantile Regression) : algorithme d’apprentissage supervisé propriétaire qui entraîne un modèle global unique à partir d’une vaste collection de séries temporelles et utilise un décodeur quantile pour effectuer des prédictions. CNN-QR fonctionne de façon optimale avec de grands jeux de données contenant des centaines de séries temporelles.

  • DeepAR+ : algorithme d’apprentissage supervisé propriétaire permettant de prévoir des séries temporelles scalaires à l’aide de réseaux neuronaux récurrents (RNN) pour entraîner conjointement un modèle unique sur l’ensemble des séries temporelles. DeepAR+ fonctionne de façon optimale avec de grands jeux de données contenant des centaines de séries temporelles de caractéristiques.

  • NPTS (Non-Parametric Time Series) : prédicteur évolutif de base probabiliste qui prédit la distribution future des valeurs d’une série temporelle donnée par échantillonnage à partir d’observations passées. NPTS est utile lorsque vous travaillez avec des séries temporelles éparses ou intermittentes (par exemple, pour prévoir la demande pour des articles individuels lorsque la série temporelle comporte de nombreux 0 ou des valeurs faibles).

  • Lissage exponentiel (ETS) : méthode de prévision qui produit des prévisions qui sont des moyennes pondérées d’observations passées, le poids des anciennes observations diminuant de façon exponentielle. Cet algorithme est utile pour les jeux de données simples contenant moins de 100 séries temporelles et les jeux de données présentant des motifs saisonniers.

  • Prophet : modèle de régression additive qui fonctionne de façon optimale avec des séries temporelles présentant de forts effets saisonniers et plusieurs saisons de données historiques. L’algorithme est utile pour les jeux de données présentant des tendances de croissance non linéaires proches d’une limite.

Quantiles de prévision

Pour la prévision de séries temporelles, SageMaker AI entraîne 6 modèles candidats avec votre série temporelle cible. Ensuite, SageMaker AI combine ces modèles en utilisant une méthode ensembliste par empilement pour créer un modèle de prévision optimal pour une métrique d’objectif donnée. Chaque modèle de prévision génère une prévision probabiliste en produisant des prévisions aux quantiles compris entre P1 et P99. Ces quantiles sont utilisés pour tenir compte de l’incertitude des prévisions. Par défaut, les prévisions sont générées pour 0,1 (p10), 0,5 (p50) et 0,9 (p90). Vous pouvez choisir de spécifier jusqu’à cinq de vos propres quantiles de 0,01 (p1) jusqu’à 0,99 (p99), par incréments de 0,01 ou plus.