Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Sélectionner les données pour l’étiquetage
<a name="sms-data-filtering"></a>

Vous pouvez utiliser la console Amazon SageMaker AI pour sélectionner une partie de votre ensemble de données à étiqueter. Les données doivent être stockées dans un compartiment Amazon S3. Trois possibilités s’offrent à vous :
+ Utiliser l’intégralité du jeu de données
+ Choisir un échantillon aléatoire du jeu de données
+ Spécifier un sous-ensemble du jeu de données à l’aide d’une requête

Les options suivantes sont disponibles dans la section **Tâches d'étiquetage** de la [console SageMaker AI](https://console.aws.amazon.com/sagemaker/groundtruth) après avoir sélectionné **Créer une tâche d'étiquetage**. Pour savoir comment créer une tâche d’étiquetage dans la console, consultez [Mise en route : création d’une tâche d’étiquetage de cadre de délimitation avec Ground Truth](sms-getting-started.md). Pour configurer le jeu de données que vous utilisez pour l’étiquetage, dans la section **Présentation de la tâche**, choisissez **Configuration supplémentaire**.

## Utilisation de l’intégralité du jeu de données
<a name="sms-full-dataset"></a>

Si vous choisissez d’utiliser **Intégralité du jeu de données**, vous devez fournir un fichier manifeste pour vos objets de données. Vous pouvez fournir le chemin du compartiment Amazon S3 qui contient le fichier manifeste ou utiliser la console SageMaker AI pour créer le fichier. Pour savoir comment créer un fichier manifeste à l’aide de la console, consultez [Automatiser la configuration des données pour les tâches d’étiquetage](sms-console-create-manifest-file.md). 

## Choix d’un échantillon aléatoire
<a name="sms-random-dataset"></a>

Lorsque vous souhaitez étiqueter un sous-ensemble aléatoire de vos données, sélectionnez **Échantillon aléatoire**. Le jeu de données est stocké dans le compartiment Amazon S3 spécifié dans le champ **Input dataset location (Emplacement du jeu de données source)**. 

Après avoir spécifié le pourcentage d'objets de données que vous souhaitez inclure dans l'exemple, choisissez **Create subset**. SageMaker L'IA sélectionne au hasard les objets de données pour votre tâche d'étiquetage. Une fois les objets sélectionnés, choisissez **Utiliser ce sous-ensemble**. 

SageMaker L'IA crée un fichier manifeste pour les objets de données sélectionnés. Il modifie également la valeur du champ **Emplacement du jeu de données d’entrée** de sorte qu’il pointe vers le nouveau fichier manifeste.

## Spécification d’un sous-ensemble
<a name="sms-select-dataset"></a>

**Amazon S3 Select**  
Amazon S3 Select n’est plus disponible pour les nouveaux clients. Les clients existants d’Amazon S3 Select peuvent continuer à utiliser cette fonctionnalité comme d’habitude. Pour en savoir plus, consultez [Comment optimiser l’interrogation de vos données dans Amazon S3](https://aws.amazon.com/blogs/storage/how-to-optimize-querying-your-data-in-amazon-s3/).

Vous pouvez spécifier un sous-ensemble de vos objets de données à l’aide d’une requête `SELECT` Amazon S3 sur les noms des fichiers d’objet. 

L’instruction `SELECT` de la requête SQL est définie pour vous. Vous renseignez la clause `WHERE` pour spécifier les objets de données à renvoyer.

Pour en savoir plus sur l’instruction `SELECT` d’Amazon S3, consultez [Sélection de contenu à partir d’objets](https://docs.aws.amazon.com/AmazonS3/latest/dev/selecting-content-from-objects.html).

Choisissez **Créer un sous-ensemble** pour démarrer la sélection, puis choisissez **Utiliser ce sous-ensemble** pour utiliser les données sélectionnées. 

SageMaker L'IA crée un fichier manifeste pour les objets de données sélectionnés. Il met également à jour la valeur du champ **Emplacement du jeu de données d’entrée** de sorte qu’il pointe vers le nouveau fichier manifeste.