Paramètres requis Paramètres facultatifs

Création d’une tâche AutoML pour la classification de texte à l’aide de l’API

Les instructions suivantes montrent comment créer une tâche Amazon SageMaker Autopilot en tant qu'expérience pilote pour les types de problèmes de classification de texte à l'aide de SageMaker API Reference.

Note

Les tâches telles que la classification d’images et de texte, les prévisions de séries temporelles et le peaufinage des grands modèles de langage sont exclusivement disponibles via la version 2 de l’API REST AutoML. Si le langage de votre choix est Python, vous pouvez vous référer AWS SDK pour Python (Boto3)directement à l'objet AutoLV2 du SDK Amazon SageMaker Python.

Les utilisateurs qui préfèrent la commodité d'une interface utilisateur peuvent utiliser Amazon SageMaker Canvas pour accéder à des modèles préentraînés et à des modèles de base d'IA génératifs, ou créer des modèles personnalisés adaptés à des textes spécifiques, à une classification d'images, à des besoins de prévision ou à une IA générative.

Vous pouvez créer un test de classification de texte sur pilote automatique par programmation en appelant l'action CreateAutoMLJobV2API dans n'importe quel langage pris en charge par Amazon SageMaker Autopilot ou le. AWS CLI

Pour en savoir plus sur la façon dont cette action d’API se traduit par une fonction dans le langage de votre choix, consultez la section Voir aussi de CreateAutoMLJobV2 et choisissez un kit SDK. À titre d'exemple, pour les utilisateurs de Python, consultez la syntaxe complète des demandes de create_auto_ml_job_v2 dans le kit AWS SDK pour Python (Boto3).

Vous trouverez ci-dessous un ensemble de paramètres de demande d'entrée obligatoires et facultatifs pour l'action d'API CreateAutoMLJobV2 utilisée dans la classification de texte.

Paramètres requis

Lorsque vous appelez CreateAutoMLJobV2 pour créer une expérience Autopilot de classification de texte, vous devez fournir les valeurs suivantes :

Un paramètre AutoMLJobName pour spécifier le nom de votre tâche.
Au moins un paramètre AutoMLJobChannel dans AutoMLJobInputDataConfig pour spécifier votre source de données.
Un paramètre AutoMLProblemTypeConfig de type TextClassificationJobConfig.
Un élément OutputDataConfig pour spécifier le chemin de sortie Amazon S3 pour stocker les artefacts de votre tâche AutoML.
Un élément RoleArn pour spécifier l'ARN du rôle utilisé pour accéder à vos données.

Tous les autres paramètres sont facultatifs.

Paramètres facultatifs

Les sections suivantes fournissent des détails sur certains paramètres facultatifs que vous pouvez transmettre à votre tâche AutoML de classification de texte.

Vous pouvez fournir votre propre jeu de données de validation et un rapport de répartition des données personnalisé, ou laisser Autopilot répartir automatiquement le jeu de données.

Chaque AutoMLJobChannelobjet (voir le paramètre requis AutoMLJobInputDataConfig) possède unChannelType, qui peut être défini sur l'une training ou l'autre des validation valeurs spécifiant la manière dont les données doivent être utilisées lors de la création d'un modèle d'apprentissage automatique.

Au moins une source de données doit être fournie et deux sources de données maximum sont autorisées : une pour les données d'entraînement et l'autre pour les données de validation. Le fractionnement des données en jeux de données d'entraînement et de validation varie selon que vous disposiez d'une ou de deux sources de données.

Le fractionnement des données en jeux de données d'entraînement et de validation varie selon que vous disposiez d'une ou de deux sources de données.

Si vous n'avez qu'une source de données, ChannelType est défini sur training par défaut et doit avoir cette valeur.
- Si la valeur ValidationFraction de AutoMLDataSplitConfig n'est pas définie, 0,2 (20 %) des données de cette source sont utilisées pour la validation par défaut.
- Si ValidationFraction est défini sur une valeur comprise entre 0 et 1, le jeu de données est divisé en fonction de la valeur spécifiée, où la valeur spécifie la fraction du jeu de données utilisé pour la validation.
Si vous disposez de deux sources de données, le ChannelType de l'un des objets AutoMLJobChannel doit être défini sur training (valeur par défaut). Le ChannelType de l'autre source de données doit être défini sur validation. Les deux sources de données doivent avoir le même format, CSV ou Parquet, et le même schéma. Vous ne devez pas définir la valeur de ValidationFraction dans ce cas, car toutes les données de chaque source sont utilisées à des fins d'entraînement ou de validation. La définition de cette valeur provoque une erreur.

Pour activer le déploiement automatique pour le meilleur modèle candidat d'une tâche AutoML, incluez un élément ModelDeployConfig dans la demande de tâche AutoML. Cela permettra de déployer le meilleur modèle sur un terminal d' SageMaker IA. Vous trouverez ci-dessous les configurations disponibles pour la personnalisation.

Pour permettre à Autopilot de générer le nom du point de terminaison, définissez AutoGenerateEndpointName sur True.
Pour fournir votre propre nom pour le point de terminaison, définissez AutoGenerateEndpointName to False and provide a name of your choice in EndpointName.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Rapport de performances du modèle

Format des jeux de données et métrique d'objectif