Esporta dati - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Esporta dati

Esporta i dati per applicare le trasformazioni dal flusso di dati all’intero set di dati importato. Puoi esportare qualsiasi nodo del flusso di dati nelle seguenti posizioni:

  • SageMaker Set di dati Canvas

  • Simple Storage Service (Amazon S3)

Per addestrare i modelli in Canvas, puoi esportare il tuo set di dati completo e trasformato come set di dati Canvas. Se desideri utilizzare i dati trasformati in flussi di lavoro di machine learning esterni a SageMaker Canvas, puoi esportare il tuo set di dati in Amazon S3.

Esportazione in un set di dati Canvas

Utilizza la seguente procedura per esportare un set di dati SageMaker Canvas da un nodo del flusso di dati.

Per esportare un nodo nel flusso come set di dati SageMaker Canvas
  1. Accedi al tuo flusso di dati.

  2. Scegli l’icona con tre puntini accanto al nodo da esportare.

  3. Nel menu contestuale, passa il mouse su Esporta, quindi seleziona Esporta dati nel set di dati Canvas.

  4. Nel pannello laterale Esporta ne set di dati Canvas, inserisci un nome per il nuovo set di dati.

  5. Lascia selezionata l'opzione Elabora l'intero set di dati se desideri che SageMaker Canvas elabori e salvi l'intero set di dati. Disattiva questa opzione per applicare le trasformazioni solo ai dati di esempio con cui stai lavorando nel flusso di dati.

  6. Scegli Export (Esporta).

A questo punto, dovresti poter accedere alla pagina Set di dati dell’applicazione Canvas e vedere il tuo nuovo set di dati.

Esportazione in Amazon S3

Quando esporti i dati in Amazon S3, puoi scalare per trasformare ed elaborare dati di qualsiasi dimensione. Canvas elabora automaticamente i dati in locale se la memoria dell’applicazione è in grado di gestire le dimensioni del set di dati. Se la dimensione del set di dati supera la capacità della memoria locale di 5 GB, Canvas avvia un processo remoto per conto dell’utente per allocare risorse di calcolo aggiuntive ed elaborare i dati più rapidamente. Per impostazione predefinita, Canvas utilizza Amazon EMR serverless per eseguire questi processi remoti. Tuttavia, puoi configurare manualmente Canvas per utilizzare EMR Serverless o un processo di SageMaker elaborazione con le tue impostazioni.

Nota

Quando esegui un processo EMR Serverless, per impostazione predefinita il processo eredita il ruolo IAM, le impostazioni delle chiavi KMS e i tag dell’applicazione Canvas.

Di seguito viene riportato un riepilogo delle opzioni per i processi remoti in Canvas:

  • EMR Serverless: questa è l’opzione predefinita utilizzata da Canvas per i processi remoti. EMR Serverless alloca e scala automaticamente le risorse di calcolo per elaborare i dati, così non devi preoccuparti di scegliere le risorse di calcolo giuste per il tuo carico di lavoro. Per ulteriori informazioni su EMR Serverless, consulta la Guida per l’utente di EMR Serverless.

  • SageMaker SageMaker Elaborazione: i lavori di elaborazione offrono opzioni più avanzate e un controllo granulare sulle risorse di calcolo utilizzate per elaborare i dati. Ad esempio, puoi specificare il tipo e il numero di istanze di calcolo, configurare il processo nel tuo VPC e controllare l’accesso alla rete, automatizzare i processi di elaborazione e altro ancora. Per ulteriori informazioni sull’automazione dei processi di elaborazione, consulta Creazione di una pianificazione per elaborare automaticamente i nuovi dati. Per informazioni più generali sui SageMaker processi di elaborazione, vedere. Carichi di lavoro di trasformazione dei dati con SageMaker Processing

I tipi di file seguenti sono supportati durante l’esportazione in Amazon S3:

  • CSV

  • Parquet

Per iniziare, esamina i prerequisiti seguenti.

Prerequisiti per i processi EMR Serverless

Per creare un processo remoto che utilizza risorse EMR Serverless, devi disporre delle autorizzazioni richieste. Puoi concedere le autorizzazioni tramite il dominio Amazon SageMaker AI o le impostazioni del profilo utente oppure puoi configurare manualmente il ruolo AWS IAM dell'utente. Per istruzioni su come concedere agli utenti le autorizzazioni per eseguire l’elaborazione di grandi quantità di dati, consulta Concessione di autorizzazioni agli utenti per utilizzare grandi quantità di dati nel ciclo di vita di ML.

Se non desideri configurare queste politiche ma devi comunque elaborare set di dati di grandi dimensioni tramite Data Wrangler, in alternativa puoi utilizzare un processo di elaborazione. SageMaker

Utilizza le procedure seguenti per esportare i dati in Amazon S3. Per configurare un processo remoto, segui le fasi avanzate facoltative.

Per esportare un nodo del flusso in Amazon S3
  1. Accedi al tuo flusso di dati.

  2. Scegli l’icona con tre puntini accanto al nodo da esportare.

  3. Nel menu contestuale, passa il mouse su Esporta, quindi seleziona Esporta dati su Amazon S3.

  4. Nel pannello laterale Esporta in Amazon S3, puoi modificare il nome per il nuovo set di dati.

  5. In Posizione S3, inserisci la posizione Amazon S3 in cui esportare il set di dati. Puoi inserire l’URI S3, l’alias o l’ARN della posizione S3 o del punto di accesso S3. Per ulteriori informazioni sui punti di accesso, consulta Managing data access with Amazon S3 access points in Amazon S3 User Guide.

  6. (Facoltativo) In Impostazioni avanzate, specifica i valori per i campi seguenti:

    1. Tipo di file: il formato file dei dati esportati.

    2. Delimitatore: il delimitatore utilizzato per separare i valori nel file.

    3. Compressione: il metodo di compressione utilizzato per ridurre le dimensioni del file.

    4. Numero di partizioni: il numero di file del set di dati che Canvas scrive come output del processo.

    5. Scegli colonne: puoi scegliere un sottoinsieme di colonne dai dati da includere nelle partizioni.

  7. Lascia selezionata l’opzione Elabora l’intero set di dati se desideri che Canvas applichi le trasformazioni del flusso di dati all’intero set di dati ed esporti il risultato. Se deselezioni questa opzione, Canvas applica le trasformazioni solo al campione del set di dati utilizzato nel flusso di dati interattivo di Data Wrangler.

    Nota

    Se esporti solo un campione di dati, Canvas elabora i dati nell’applicazione e non crea un processo remoto per conto tuo.

  8. Lascia selezionata l’opzione Configurazione automatica del processo se desideri che Canvas decida automaticamente se eseguire il processo con la memoria dell’applicazione Canvas o con un processo EMR Serverless. Se si deseleziona questa opzione e si configura manualmente il processo, è possibile scegliere di utilizzare un processo EMR Serverless o SageMaker un processo di elaborazione. Per istruzioni su come configurare un processo EMR Serverless o di SageMaker elaborazione, vedere la sezione successiva a questa procedura prima di esportare i dati.

  9. Scegli Export (Esporta).

Le seguenti procedure mostrano come configurare manualmente le impostazioni del processo remoto per EMR Serverless o SageMaker Processing durante l'esportazione del set di dati completo in Amazon S3.

EMR Serverless

Per configurare un processo EMR Serverless durante l’esportazione in Amazon S3, procedi come descritto di seguito:

  1. Nel pannello laterale Esporta in Amazon S3, disattiva l’opzione di configurazione automatica del processo.

  2. Seleziona EMR Serverless.

  3. In Nome processo, inserisci un nome per il processo EMR Serverless. Il nome può contenere solo lettere, numeri, trattini e caratteri di sottolineatura.

  4. In Ruolo IAM, inserisci il ruolo di esecuzione IAM dell’utente. Questo ruolo deve disporre delle autorizzazioni necessarie per eseguire applicazioni EMR Serverless. Per ulteriori informazioni, consulta Concessione di autorizzazioni agli utenti per utilizzare grandi quantità di dati nel ciclo di vita di ML.

  5. (Facoltativo) Per la chiave KMS, specificare l'ID della chiave o l'ARN di AWS KMS key un per crittografare i registri dei lavori. Se non inserisci una chiave, Canvas utilizza una chiave predefinita per EMR Serverless.

  6. (Facoltativo) Per la configurazione del monitoraggio, inserisci il nome di un gruppo di log di Amazon CloudWatch Logs in cui desideri pubblicare i log.

  7. (Facoltativo) In Tag, aggiungi i tag dei metadati al processo EMR Serverless costituiti da coppie chiave-valore. Questi tag possono essere utilizzati per classificare e cercare i processi.

  8. Scegli Export (Esporta) per avviare il processo.

SageMaker Processing

Per configurare un SageMaker processo di elaborazione durante l'esportazione in Amazon S3, procedi come segue:

  1. Nel pannello laterale Esporta in Amazon S3, disattiva l’opzione di configurazione automatica del processo.

  2. Seleziona SageMaker Elaborazione.

  3. Per Job name, inserisci un nome per il tuo job di SageMaker AI Processing.

  4. In Tipo di istanza, seleziona il tipo di istanza di calcolo per eseguire il processo di elaborazione.

  5. In Numero di istanze, specifica il numero di istanze di calcolo da avviare.

  6. In Ruolo IAM, inserisci il ruolo di esecuzione IAM dell’utente. Questo ruolo deve disporre delle autorizzazioni necessarie affinché l' SageMaker IA possa creare ed eseguire lavori di elaborazione per tuo conto. Queste autorizzazioni vengono concesse se hai la AmazonSageMakerFullAccesspolicy allegata al tuo ruolo IAM.

  7. In Dimensioni volume, inserisci la dimensione dell’archiviazione in GB per il volume di archiviazione di ML collegato a ciascuna istanza di elaborazione. Scegli questo valore in base alla dimensione prevista dei dati di input e output.

  8. (Facoltativo) In Chiave KMS del volume, specifica una chiave KMS per crittografare il volume di archiviazione. Se non specifichi una chiave, viene utilizzata la chiave di crittografia predefinita di Amazon EBS.

  9. (Facoltativo) In Chiave KMS, specifica una chiave KMS per crittografare le origini dati di input e output di Amazon S3 utilizzate dal processo di elaborazione.

  10. (Facoltativo) In Configurazione memoria Spark, procedi come descritto di seguito:

    1. Inserisci la memoria del driver in MB per il nodo driver Spark che gestisce il coordinamento e la pianificazione dei processi.

    2. Inserisci la memoria dell’esecutore in MB per i nodi dell’esecutore Spark che eseguono le singole attività nel processo.

  11. (Facoltativo) In Configurazione di rete, procedi come descritto di seguito:

    1. Per la configurazione IDs della sottorete, inserisci le sottoreti VPC per le istanze di elaborazione in cui avviare. Per impostazione predefinita, il processo utilizza le impostazioni del VPC predefinito.

    2. Per la configurazione del gruppo di sicurezza, inserisci uno dei gruppi IDs di sicurezza per controllare le regole di connettività in entrata e in uscita.

    3. Attiva l’opzione Abilita la crittografia del traffico tra container per crittografare le comunicazioni di rete tra i container di elaborazione durante il processo.

  12. (Facoltativo) Per le pianificazioni di affiliazione, puoi scegliere di creare una EventBridge pianificazione Amazon per far sì che il processo di elaborazione venga eseguito a intervalli ricorrenti. Scegli Crea nuova pianificazione e compila la finestra di dialogo. Per ulteriori informazioni sulla compilazione di questa sezione e sull’esecuzione dei processi di elaborazione in base a una pianificazione, consulta Creazione di una pianificazione per elaborare automaticamente i nuovi dati.

  13. (Facoltativo) Aggiungi i tag come coppie chiave-valore in modo da poter classificare e cercare i processi di elaborazione.

  14. Scegli Esporta per avviare il processo di elaborazione.

Dopo aver esportato i dati, dovresti trovare il set di dati completamente elaborato nella posizione Amazon S3 specificata.