Creazione di un flusso di dati - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Creazione di un flusso di dati

Utilizza un flusso Data Wrangler in SageMaker Canvas, o flusso di dati, per creare e modificare una pipeline di preparazione dei dati. Ti consigliamo di utilizzare Data Wrangler per i set di dati di dimensioni superiori a 5 GB.

Per iniziare, utilizza la procedura seguente per importare i dati in un flusso di dati.

  1. Apri Canvas. SageMaker

  2. Nel pannello di navigazione a sinistra, scegli Data Wrangler.

  3. Scegli Importa e prepara.

  4. Dal menu a discesa, scegli Tabulare o Immagine.

  5. In Seleziona un’origine dati, scegli l’origine dati e seleziona i dati da importare. Puoi selezionare un massimo di 30 file o una cartella. Se hai già un set di dati importato in Canvas, scegli Set di dati Canvas come origine. In caso contrario, connettiti a un’origine dati come Amazon S3 o Snowflake e sfoglia i tuoi dati. Per informazioni sulla connessione a un’origine dati o sull’importazione di dati, consulta le pagine seguenti:

  6. Dopo aver selezionato i dati da importare, scegli Avanti.

  7. (Facoltativo) Nella sezione Impostazioni di importazione, espandi il menu a discesa Avanzate durante l’importazione di un set di dati tabulare. Puoi specificare le impostazioni avanzate seguenti per le importazioni di flussi di dati:

    • Metodo di campionamento: seleziona il metodo di campionamento e la dimensione del campione che desideri utilizzare. Per ulteriori informazioni su come modificare il campionamento, consulta la sezione Modifica della configurazione per il campionamento del flusso di dati.

    • Codifica file (CSV): seleziona la codifica del file del set di dati. UTF-8 è l’impostazione predefinita.

    • Ignora le prime righe: se hai righe ridondanti all’inizio del set di dati, inserisci il numero di righe da escludere dall’importazione.

    • Delimitatore: seleziona il delimitatore che separa ogni cella dei tuoi dati. Puoi anche specificare un delimitatore personalizzato.

    • Rilevamento di più righe: seleziona questa opzione se desideri che Canvas analizzi manualmente l’intero set di dati alla ricerca di celle con più righe. Canvas determina se utilizzare o meno il supporto di più righe prelevando un campione di dati, ma nel campione potrebbero non esserci celle con più righe. In questo caso, consigliamo di selezionare l’opzione Rilevamento di più righe per forzare Canvas a verificare la presenza tali celle nell’intero set di dati.

  8. Scegli Importa.

A questo punto, dovresti avere un nuovo flusso di dati e puoi iniziare ad aggiungere fasi di trasformazione e analisi.