Paramètres avancés de modèle de prédiction numérique et catégoriel Paramètres avancés du modèle de prévision de séries temporelles

Configurations avancées de génération de modèle

Amazon SageMaker Canvas prend en charge différents paramètres avancés que vous pouvez configurer lors de la création d'un modèle. La page suivante répertorie tous les paramètres avancés ainsi que des informations supplémentaires sur leurs options et configurations.

Note

Les paramètres avancés suivants ne sont actuellement pris en charge que pour les types de modèles de prévision numériques, catégoriels et de séries temporelles.

Paramètres avancés de modèle de prédiction numérique et catégoriel

Canvas prend en charge les paramètres avancés suivants pour les types de modèles de prédiction numériques et catégoriels.

Métrique d’objectif

La métrique d’objectif est la métrique que vous voulez que Canvas optimise lors de la génération de votre modèle. Si vous ne sélectionnez aucune métrique, Canvas en choisit une pour vous par défaut. Pour une description des métriques disponibles, consultez Référence des métriques.

Méthode d’entraînement

Canvas peut sélectionner automatiquement la méthode d’entraînement en fonction de la taille du jeu de données. Vous pouvez également la sélectionner manuellement. Vous pouvez choisir parmi les méthodes d’entraînement suivantes :

Assemblage — SageMaker L'IA utilise la AutoGluon bibliothèque pour entraîner plusieurs modèles de base. Pour trouver la meilleure combinaison pour votre jeu de données, le mode ensembliste exécute entre 5 et 10 essais avec différentes valeurs de modèle et de méta-paramètres. Ensuite, ces modèles sont combinés à l’aide d’une méthode ensembliste par empilement pour créer un modèle prédictif optimal. Pour obtenir la liste des algorithmes pris en charge par le mode ensembliste pour les données tabulaires, consultez la section Algorithmes suivante.
Optimisation des hyperparamètres (HPO) : l' SageMaker IA trouve la meilleure version d'un modèle en ajustant les hyperparamètres à l'aide de l'optimisation bayésienne ou de l'optimisation multifidélité lors de l'exécution de tâches d'entraînement sur votre ensemble de données. Le mode HPO sélectionne les algorithmes les plus pertinents pour votre jeu de données et la meilleure gamme d’hyperparamètres pour ajuster vos modèles. Pour ajuster vos modèles, le mode HPO exécute jusqu’à 100 essais (par défaut) afin de trouver les valeurs d’hyperparamètres optimales dans la plage sélectionnée. Si la taille de votre jeu de données est inférieure à 100 Mo, l' SageMaker IA utilise l'optimisation bayésienne. SageMaker L'IA choisit l'optimisation multifidélité si votre ensemble de données est supérieur à 100 Mo.

Pour obtenir la liste des algorithmes pris en charge par le mode HPO pour les données tabulaires, consultez la section Algorithmes suivante.
Auto — SageMaker L'IA choisit automatiquement le mode d'assemblage ou le mode HPO en fonction de la taille de votre jeu de données. Si votre jeu de données est supérieur à 100 Mo, SageMaker AI choisit le mode HPO. Dans le cas contraire, il choisit le mode Assemblage.

Algorithmes

En mode Assemblage, Canvas prend en charge les algorithmes de machine learning suivants :

LightGBM : framework optimisé qui utilise des algorithmes arborescents avec renforcement de gradient. Cet algorithme utilise des arborescences qui se développent en largeur plutôt qu’en profondeur, et est hautement optimisé en termes de vitesse.
CatBoost— Un framework qui utilise des algorithmes basés sur des arbres avec augmentation du gradient. Optimisé pour la gestion des variables catégorielles.
XGBoost : cadre qui utilise des algorithmes arborescents avec renforcement de gradient qui se développent en largeur plutôt qu’en profondeur.
Random Forest (Forêt aléatoire) : algorithme arborescent qui utilise plusieurs arbres de décision sur des sous-échantillons aléatoires des données avec remplacement. Les arbres sont divisés en nœuds optimaux à chaque niveau. La moyenne des décisions de chaque arbre est calculée afin d’éviter tout surajustement et d’améliorer les prédictions.
Extra Trees (Arbres supplémentaires) : algorithme arborescent qui utilise plusieurs arbres de décision sur l’ensemble du jeu de données. Les arbres sont divisés aléatoirement à chaque niveau. La moyenne des décisions de chaque arbre est calculée afin d’éviter tout surajustement et d’améliorer les prédictions. Les arbres supplémentaires ajoutent un degré de randomisation par rapport à l’algorithme Random Forest (Forêt aléatoire).
Linear Models (Modèles linéaires) : framework qui utilise une équation linéaire pour modéliser la relation entre deux variables dans les données observées.
Neural network torch (Réseau neuronal torch) : modèle de réseau neuronal implémenté à l’aide de Pytorch.
Neural network fast.ai (Réseau neuronal fast.ai) : modèle de réseau neuronal implémenté à l’aide de fast.ai.

En mode HPO, Canvas prend en charge les algorithmes de machine learning suivants :

XGBoost : algorithme d’apprentissage supervisé qui tente de prédire avec précision une variable cible en combinant un ensemble d’estimations à partir d’un jeu de modèles plus simples et plus faibles.
Algorithme de deep learning : perceptron multicouche (MLP) et réseau neuronal artificiel à action directe. Cet algorithme traite les données qui ne sont pas linéairement séparables.

Fractionnement des données

Vous avez la possibilité de spécifier comment vous souhaitez répartir votre jeu de données entre le jeu d’entraînement (la partie de votre jeu de données utilisée pour générer le modèle) et le jeu de validation (la partie de votre jeu de données utilisée pour vérifier l’exactitude du modèle). Par exemple, un rapport de fractionnement courant prévoit 80 % pour l’entraînement et 20 % pour la validation, 80 % de vos données étant utilisées pour générer le modèle tandis que 20 % sont enregistrées pour mesurer les performances du modèle. Si vous ne spécifiez pas de rapport personnalisé, Canvas divise automatiquement votre jeu de données.

Nombre maximal de candidats

Note

Cette fonctionnalité est disponible uniquement en mode d’entraînement HPO.

Vous pouvez spécifier le nombre maximal de modèles candidats que Canvas génère lors de la génération de votre modèle. Nous vous recommandons d’utiliser le nombre par défaut de candidats, à savoir 100, pour générer les modèles les plus précis. Le nombre maximal que vous pouvez spécifier est 250. La diminution du nombre de modèles candidats peut avoir un impact sur l’exactitude de votre modèle.

Durée maximale d’exécution

Vous pouvez spécifier la durée d’exécution maximale des tâches ou le temps maximal que Canvas passe à générer votre modèle. Passé le délai imparti, Canvas arrête la génération et sélectionne le meilleur modèle candidat.

La durée maximale que vous pouvez spécifier est de 720 heures. Nous vous recommandons vivement de maintenir la durée d’exécution maximale des tâches au-dessus de 30 minutes pour veiller à ce que Canvas dispose de suffisamment de temps pour générer des modèles candidats et terminer la génération de votre modèle.

Paramètres avancés du modèle de prévision de séries temporelles

Pour les modèles de prévision de séries temporelles, Canvas prend en charge la métrique d’objectif, répertoriée dans la section précédente.

Les modèles de prévision de séries temporelles prennent également en charge le paramètre avancé suivant :

Sélection d’algorithmes

Lorsque vous générez un modèle de prévision de séries temporelles, Canvas utilise un ensemble (ou une combinaison) d’algorithmes statistiques et de machine learning pour fournir des prédictions de séries temporelles très précises. Par défaut, Canvas sélectionne la combinaison optimale de tous les algorithmes disponibles en fonction des séries temporelles figurant dans votre jeu de données. Vous avez toutefois la possibilité de spécifier un ou plusieurs algorithmes à utiliser pour votre modèle de prévision. Dans ce cas, Canvas détermine la combinaison optimale en utilisant uniquement les algorithmes que vous avez sélectionnés. Si vous ne savez pas quel algorithme sélectionner pour entraîner votre modèle, nous vous recommandons de choisir tous les algorithmes disponibles.

Note

La sélection d’algorithmes n’est prise en charge que pour les générations standard. Si vous ne sélectionnez aucun algorithme dans les paramètres avancés, l' SageMaker IA exécute par défaut une génération rapide et forme les candidats modèles à l'aide d'un seul algorithme d'apprentissage basé sur des arbres. Pour plus d’informations sur la différence entre les générations rapides et les générations standard, consultez Fonctionnement des modèles personnalisés.

Canvas prend en charge les algorithmes de prévision de séries temporelles suivants :

ARIMA (Autoregressive Integrated Moving Average) : modèle de séries temporelles stochastique simple qui utilise l’analyse statistique pour interpréter les données et effectuer des prédictions futures. Cet algorithme est utile pour les jeux de données simples comportant moins de 100 séries temporelles.
Réseau neuronal convolutif - Régression quantile (CNN-QR) — Algorithme d'apprentissage supervisé propriétaire qui entraîne un modèle global à partir d'une vaste collection de séries chronologiques et utilise un décodeur quantile pour faire des prédictions. CNN-QR fonctionne mieux avec de grands ensembles de données contenant des centaines de séries chronologiques.
DeepAR+ : algorithme d’apprentissage supervisé propriétaire permettant de prévoir des séries temporelles scalaires à l’aide de réseaux neuronaux récurrents (RNN) pour entraîner conjointement un modèle unique sur l’ensemble des séries temporelles. DeepAR+ fonctionne de façon optimale avec de grands jeux de données contenant des centaines de séries temporelles de caractéristiques.
Non-Parametric Série chronologique (NPTS) — Un prévisionniste de référence probabiliste et évolutif qui prédit la distribution future des valeurs d'une série chronologique donnée en échantillonnant à partir d'observations passées. NPTS est utile lorsque vous travaillez avec des séries temporelles éparses ou intermittentes (par exemple, pour prévoir la demande pour des articles individuels lorsque la série temporelle comporte de nombreux 0 ou des valeurs faibles).
Lissage exponentiel (ETS) : méthode de prévision qui produit des prévisions qui sont des moyennes pondérées d’observations passées, le poids des anciennes observations diminuant de façon exponentielle. Cet algorithme est utile pour les jeux de données simples contenant moins de 100 séries temporelles et les jeux de données présentant des motifs saisonniers.
Prophet : modèle de régression additive qui fonctionne de façon optimale avec des séries temporelles présentant de forts effets saisonniers et plusieurs saisons de données historiques. L’algorithme est utile pour les jeux de données présentant des tendances de croissance non linéaires proches d’une limite.

Quantiles de prévision

Pour la prévision des séries chronologiques, l' SageMaker IA forme 6 modèles candidats avec vos séries chronologiques cibles. SageMaker L'IA combine ensuite ces modèles à l'aide d'une méthode d'empilement d'ensembles afin de créer un modèle de prévision optimal pour une métrique objective donnée. Chaque modèle de prévision génère une prévision probabiliste en produisant des prévisions aux quantiles compris entre P1 et P99. Ces quantiles sont utilisés pour tenir compte de l’incertitude des prévisions. Par défaut, les prévisions sont générées pour 0,1 (p10), 0,5 (p50) et 0,9 (p90). Vous pouvez choisir de spécifier jusqu’à cinq de vos propres quantiles de 0,01 (p1) jusqu’à 0,99 (p99), par incréments de 0,01 ou plus.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Créer un modèle

Modification d’un jeu de données d’image