File di manifesto di input
Ogni riga di un file manifest di input è una voce contenente un oggetto, o un riferimento a un oggetto, da etichettare. Una voce può contenere anche etichette relative a processi precedenti e, per alcuni tipi di attività, informazioni aggiuntive.
I dati di input e il file manifest devono essere archiviati in Amazon Simple Storage Service (Amazon S3). Ciascuno ha requisiti specifici di storage e accesso, come segue:
-
Il bucket S3 che contiene i dati di input deve trovarsi nella stessa Regione AWS in cui esegui Amazon SageMaker Ground Truth. È necessario concedere ad Amazon SageMaker AI l’accesso ai dati archiviati nel bucket Amazon S3 in modo che possa leggerli. Per ulteriori informazioni sui bucket S3 Amazon, consulta Working with Amazon S3 buckets.
-
Il file manifest deve trovarsi nella stessa Regione AWS dei file di dati ma non necessariamente nella stessa posizione. Può essere archiviato in qualsiasi bucket S3 Amazon accessibile al ruolo (IAM) AWS Identity and Access Management che hai assegnato a Ground Truth al momento della creazione del processo di etichettatura.
Nota
I tipi di attività con nuvola di punti 3D e frame video hanno requisiti e attributi manifest di input diversi.
Per i tipi di attività nuvola di punti 3D, fai riferimento a File di manifesto di input per processi di etichettatura in una nuvola di punti 3D.
Per i tipi di attività frame video, fai riferimento a Creazione di un file manifesto di input di fotogrammi video.
Manifest è un file con codifica UTF-8 in cui ogni riga è un oggetto JSON completo e valido. Ogni riga è delimitata da un’interruzione di riga standard, \n oppure \r\n. Dal momento che ogni riga deve essere un oggetto JSON valido, i caratteri di interruzione di riga senza escape non sono consentiti. Per ulteriori informazioni sul formato dei dati, consulta JSON Lines
Ogni oggetto JSON nel file manifest non può superare i 100.000 caratteri. Nessun singolo attributo all'interno di un oggetto può includere più di 20.000 caratteri. I nomi degli attributi non possono iniziare il segno del dollaro $.
Ogni oggetto JSON nel file manifest deve contenere una delle seguenti chiavi: source-ref o source. I valori delle chiavi sono interpretati come segue:
-
source-ref: l'origine dell'oggetto è l'oggetto Amazon S3 specificato nel valore. Utilizza questo valore quando l'oggetto è un oggetto binario, ad esempio un'immagine. -
source: l'origine dell'oggetto è il valore. Utilizza questo valore quando l'oggetto è un valore di testo.
Di seguito è riportato un esempio di un file manifest per file archiviati in un bucket S3 Amazon:
{"source-ref": "S3 bucket location 1"} {"source-ref": "S3 bucket location 2"} ... {"source-ref": "S3 bucket location n"}
Utilizza la chiave source-ref dei file immagine per i processi di riquadro di delimitazione, classificazione delle immagini (a etichetta singola e multipla), segmentazione semantica e dei video clip per l'etichettatura della classificazione video. Anche i processi di etichettatura 3D con nuvole di punti e frame video utilizzano la chiave source-ref, ma questi processi di etichettatura richiedono informazioni aggiuntive nel file manifest di input. Per ulteriori informazioni, consulta Dati di input nuvola di punti 3D e Dati di input di fotogrammi video.
Di seguito è riportato un esempio di un file manifest con dati di input archiviati nel manifest:
{"source": "Lorem ipsum dolor sit amet"} {"source": "consectetur adipiscing elit"} ... {"source": "mollit anim id est laborum"}
Utilizzo della chiave source per i processi di classificazione del testo con etichetta singola e multietichetta e riconoscimento entità denominate.
Puoi includere altre coppie chiave-valore nel file manifest. Queste coppie vengono passate al file di output invariate. Ciò è utile quando desideri passare informazioni tra applicazioni. Per ulteriori informazioni, consulta Etichettatura dei dati di output di un processo.