Automatiser la configuration des données pour les tâches d’étiquetage - Amazon SageMaker AI

Automatiser la configuration des données pour les tâches d’étiquetage

Vous pouvez utiliser la configuration automatisée des données pour créer des fichiers manifestes pour vos tâches d’étiquetage dans la console Ground Truth à l’aide d’images, de vidéos, de trames vidéo, de fichiers texte (.txt) et de fichiers CSV (.csv) stockés dans Amazon S3. Lorsque vous utilisez la configuration automatisée des données, vous spécifiez un emplacement Amazon S3 où vos données d’entrée sont stockées ainsi que leur type de données, et Ground Truth recherche les fichiers correspondant à ce type dans l’emplacement que vous spécifiez.

Note

Ground Truth n’utilise pas une clé AWS KMS pour accéder à vos données d’entrée ou écrire le fichier manifeste source dans l’emplacement Amazon S3 que vous spécifiez. L’utilisateur ou le rôle qui crée la tâche d’étiquetage doit disposer des autorisations nécessaires pour accéder à vos objets de données d’entrées dans Amazon S3.

Avant d’utiliser la procédure suivante, assurez-vous que vos images ou fichiers d’entrée sont au format approprié :

  • Fichiers image – Les fichiers image doivent respecter les limites de taille et de résolution indiquées dans les tableaux que vous pouvez trouver dans Quota de taille des fichiers d’entrée.

  • Fichiers texte – Les données texte peuvent être stockées dans un ou plusieurs fichiers .txt. Chaque élément à étiqueter doit être séparé par un saut de ligne standard.

  • Fichiers CSV – Les données texte peuvent être stockées dans un ou plusieurs fichiers .csv. Chaque élément à étiqueter doit se trouver sur une ligne distincte.

  • Vidéos : le format des fichiers vidéo peut être l’un des suivants : .mp4, .ogg et .webm. Si vous souhaitez extraire des trames vidéo de vos fichiers vidéo pour la détection d’objets ou le suivi d’objets, consultez Fournir des fichiers vidéo.

  • Trames vidéo : les trames vidéo sont des images extraites d’une vidéo. Toutes les images extraites d’une seule vidéo sont appelées séquence de trames vidéo. Chaque séquence de trames vidéo doit avoir des clés de préfixe uniques dans Amazon S3. Consultez Fournir des trames vidéo. Pour ce type de données, consultez Configuration automatisée des données d’entrée de trame vidéo

Important

Pour les tâches d’étiquetage de détection et de suivi d’objets dans les trames vidéo, consultez Configuration automatisée des données d’entrée de trame vidéo pour savoir comment utiliser la configuration automatisée des données.

Utilisez ces instructions pour configurer automatiquement votre connexion de jeu de données source avec Ground Truth.

Connectez automatiquement vos données dans Amazon S3 avec Ground Truth
  1. Accédez à la page Création d’une tâche d’étiquetage dans la console Amazon SageMaker AI à l’adresse https://console.aws.amazon.com/sagemaker/.

    Ce lien vous situe dans la région AWS de Virginie du Nord (us-east-1). Si vos données d’entrée se trouvent dans un compartiment Amazon S3 d’une autre région, spécifiez cette région. Pour modifier votre région AWS, dans la barre de navigation, choisissez le nom de la région actuellement affichée.

  2. Sélectionnez Créer une tâche d’étiquetage.

  3. Saisissez un Nom de la tâche.

  4. Dans la section Configuration des données d’entrée, sélectionnez Configuration automatisée des données.

  5. Saisissez un URI Amazon S3 pour Emplacement S3 pour les jeux de données d’entrée.

  6. Spécifier votre Emplacement S3 pour les jeux de données de sortie. C’est l’endroit où vos données seront stockées.

  7. Choisissez votre Type de données en utilisant la liste déroulante.

  8. Utilisez le menu déroulant sous Rôle IAM pour sélectionner un rôle d’exécution. Si vous sélectionnez Créer un rôle, spécifiez les compartiments Amazon S3 auxquels vous souhaitez accorder l’autorisation d’accès à ce rôle. Ce rôle doit avoir l’autorisation d’accéder aux compartiments S3 que vous avez spécifiés aux étapes 5 et 6.

  9. Sélectionnez Terminer la configuration des données.

Cela crée un manifeste source dans l’emplacement Amazon S3 pour les jeux de données d’entrée que vous avez spécifiés à l’étape 5. Si vous créez une tâche d’étiquetage à l’aide de l’API SageMaker, AWS CLI, ou un kit SDK AWS, utilisez l’URI Amazon S3 pour ce fichier manifeste source comme valeur pour le paramètre ManifestS3Uri.

Le GIF suivant montre comment utiliser la configuration automatisée des données pour les données d’image. Cet exemple va créer un fichier dataset-YYMMDDTHHMMSS.manifest dans le compartiment Amazon S3 example-groundtruth-imagesYYMMDDTHHmmSS indique l’année (YY), le mois (MM), le jour (DD) et le temps en heures (HH), minutes (mm) et secondes (ss), de la création du fichier manifeste source.

GIF montrant comment utiliser la configuration automatisée des données pour les données d’image.