Automatizzare la configurazione dei dati per i processi di etichettatura
Puoi utilizzare la configurazione automatica dei dati per creare file manifest per i tuoi processi di etichettatura nella console Ground Truth utilizzando immagini, video, frame video, file di testo (.txt) e file con valori separati da virgole (.csv) archiviati in Amazon S3. Quando utilizzi la configurazione automatica dei dati, specifichi una posizione Amazon S3 in cui sono archiviati i dati di input e il tipo di dati di input, e Ground Truth cerca i file che corrispondono a quel tipo nella posizione specificata.
Nota
Ground Truth non utilizza una chiave AWS KMS per accedere ai dati di input né per scrivere il file manifest di input nella posizione Amazon S3 specificata. L'utente o il ruolo che crea il processo di etichettatura deve disporre delle autorizzazioni per accedere ai dati di input in Amazon S3.
Prima di utilizzare la procedura seguente, assicurati che le immagini o i file di input siano formattati correttamente:
-
File di immagine: i file di immagine devono rispettare i limiti di dimensione e risoluzione elencati nelle tabelle disponibili in Quote di dimensione dei file di input.
-
File di testo: i dati di testo possono essere memorizzati in uno o più file .txt. Ogni elemento che vuoi etichettare deve essere separato da un'interruzione di riga standard.
-
File CSV: i dati di testo possono essere memorizzati in uno o più file .csv. Ogni elemento che vuoi etichettare deve trovarsi in una riga separata.
-
Video: i file video possono essere in uno dei seguenti formati: .mp4, .ogg e.webm. Se desideri estrarre frame video dai tuoi file video per il rilevamento o il monitoraggio di oggetti, consulta Fornire file video.
-
Frame video: i frame video sono immagini estratte da un video. Tutte le immagini estratte da un singolo video vengono chiamate sequenze di frame video. Ogni sequenza di frame video deve avere chiavi di prefisso univoche in Amazon S3. Per informazioni, consulta Fornire fotogrammi video. Per questo tipo di dati, consulta Configurare in modo automatico i dati di input nei frame video
Importante
Per i processi di rilevamento di oggetti con frame video e di monitoraggio di oggetti con frame video, consulta Configurare in modo automatico i dati di input nei frame video per informazioni su come utilizzare la configurazione automatica dei dati.
Segui queste istruzioni per configurare automaticamente la connessione del set di dati di input con Ground Truth.
Connetti automaticamente i dati in Amazon S3 con Ground Truth
-
Vai alla pagina Crea processo di etichettatura nella console di Amazon SageMaker AI all’indirizzo https://console.aws.amazon.com/sagemaker/
. Questo collegamento ti posiziona nella Regione AWS Virginia del Nord (us-east-1). Se i dati di input si trovano in un bucket Amazon S3 in un'altra Regione, passa a quella Regione. Per cambiare Regione AWS, sulla barra di navigazione, scegli il nome della Regione visualizzata correntemente.
-
Seleziona Crea processo di etichettatura.
-
Inserisci un Nome processo.
-
Nella sezione Configurazione dei dati di input, seleziona Configurazione automatica dei dati.
-
Inserisci un URI Amazon S3 per la posizione S3 per i set di dati di input.
-
Specifica la posizione S3 per i set di dati di output. I dati di output vengono archiviati qui.
-
Scegli il tuo Tipo di dati utilizzando l'elenco a discesa.
-
Utilizza il menu a discesa in Ruolo IAM per selezionare un ruolo di esecuzione. Se selezioni Crea un nuovo ruolo, specifica i bucket S3 Amazon a cui desideri concedere l'autorizzazione di accesso a questo ruolo. Questo ruolo deve avere l'autorizzazione ad accedere ai bucket S3 specificati nelle fasi 5 e 6.
-
Seleziona Configurazione dei dati completa.
Questo crea un manifest di input nella posizione Amazon S3 per i set di dati di input specificati nella fase 5. Se stai creando un processo di etichettatura utilizzando l'API SageMaker o AWS CLI oppure un SDK AWS, usa l'URI Amazon S3 per questo file manifest di input come input per il parametro ManifestS3Uri.
La seguente GIF mostra come utilizzare la configurazione automatica dei dati per i dati delle immagini. Questo esempio creerà un file, dataset- nel bucket S3 Amazon YYMMDDTHHMMSS.manifestexample-groundtruth-images dove indica anno (YYMMDDTHHmmSSYY), mese (MM), giorno (DD) e ora (HH), minuti (mm) e secondi (ss), in cui è stato creato il file manifest di input.