Création d’une tâche AutoML pour la classification de texte à l’aide de l’API - Amazon SageMaker AI

Création d’une tâche AutoML pour la classification de texte à l’aide de l’API

Les instructions suivantes vous montrent comment créer une tâche Amazon SageMaker Autopilot en tant qu'expérience pilote pour des types de problèmes de classification de texte à l'aide de la Référence des API SageMaker.

Note

Les tâches telles que la classification d’images et de texte, les prévisions de séries temporelles et le peaufinage des grands modèles de langage sont exclusivement disponibles via la version 2 de l’API REST AutoML. Si le langage de votre choix est Python, vous pouvez également vous référer directement au kit AWS SDK for Python (Boto3) ou à l’objet AutoMLV2 du kit Amazon SageMaker Python SDK.

Les utilisateurs qui préfèrent la commodité d’une interface utilisateur peuvent utiliser Amazon SageMaker Canvas afin d’accéder à des modèles pré-entraînés et à des modèles de fondation d’IA générative, ou de créer des modèles personnalisés adaptés à des besoins spécifiques en matière de texte, de classification d’images ou de prévision, ou encore à l’IA générative.

Vous pouvez créer une expérience de classification de texte Autopilot par programmation en appelant l'action d'API CreateAutoMLJobV2 dans n'importe quel langage pris en charge par Amazon SageMaker Autopilot ou AWS CLI.

Pour en savoir plus sur la façon dont cette action d’API se traduit par une fonction dans le langage de votre choix, consultez la section Voir aussi de CreateAutoMLJobV2 et choisissez un kit SDK. À titre d'exemple, pour les utilisateurs de Python, consultez la syntaxe complète des demandes de create_auto_ml_job_v2 dans le kit AWS SDK for Python (Boto3).

Vous trouverez ci-dessous un ensemble de paramètres de demande d'entrée obligatoires et facultatifs pour l'action d'API CreateAutoMLJobV2 utilisée dans la classification de texte.

Paramètres requis

Lorsque vous appelez CreateAutoMLJobV2 pour créer une expérience Autopilot de classification de texte, vous devez fournir les valeurs suivantes :

Tous les autres paramètres sont facultatifs.

Paramètres facultatifs

Les sections suivantes fournissent des détails sur certains paramètres facultatifs que vous pouvez transmettre à votre tâche AutoML de classification de texte.

Vous pouvez fournir votre propre jeu de données de validation et un rapport de répartition des données personnalisé, ou laisser Autopilot répartir automatiquement le jeu de données.

Chaque objet AutoMLJobChannel (voir le paramètre requis AutoMLJobInputDataConfig) est doté d'un ChannelType, qui peut avoir la valeur training ou validation, qui spécifie comment utiliser les données lors de la création d'un modèle de machine learning.

Au moins une source de données doit être fournie et deux sources de données maximum sont autorisées : une pour les données d'entraînement et l'autre pour les données de validation. Le fractionnement des données en jeux de données d'entraînement et de validation varie selon que vous disposiez d'une ou de deux sources de données.

Le fractionnement des données en jeux de données d'entraînement et de validation varie selon que vous disposiez d'une ou de deux sources de données.

  • Si vous n'avez qu'une source de données, ChannelType est défini sur training par défaut et doit avoir cette valeur.

    • Si la valeur ValidationFraction de AutoMLDataSplitConfig n'est pas définie, 0,2 (20 %) des données de cette source sont utilisées pour la validation par défaut.

    • Si ValidationFraction est défini sur une valeur comprise entre 0 et 1, le jeu de données est divisé en fonction de la valeur spécifiée, où la valeur spécifie la fraction du jeu de données utilisé pour la validation.

  • Si vous disposez de deux sources de données, le ChannelType de l'un des objets AutoMLJobChannel doit être défini sur training (valeur par défaut). Le ChannelType de l'autre source de données doit être défini sur validation. Les deux sources de données doivent avoir le même format, CSV ou Parquet, et le même schéma. Vous ne devez pas définir la valeur de ValidationFraction dans ce cas, car toutes les données de chaque source sont utilisées à des fins d'entraînement ou de validation. La définition de cette valeur provoque une erreur.

Pour activer le déploiement automatique pour le meilleur modèle candidat d'une tâche AutoML, incluez un élément ModelDeployConfig dans la demande de tâche AutoML. Cela permet de déployer le meilleur modèle sur un point de terminaison SageMaker AI. Vous trouverez ci-dessous les configurations disponibles pour la personnalisation.