Creazione di un set di dati
Nota
Se stai importando set di dati di dimensioni superiori a 5 GB in Amazon SageMaker Canvas, ti consigliamo di utilizzare la funzionalità Data Wrangler in Canvas per creare un flusso di dati. Data Wrangler supporta funzionalità avanzate di preparazione dei dati come il join e la concatenazione dei dati. Dopo aver creato un flusso di dati, puoi esportarlo come set di dati Canvas e iniziare a creare un modello. Per ulteriori informazioni, consulta Esportazione per creare un modello.
Nelle sezioni seguenti viene descritto come creare un set di dati in Amazon SageMaker Canvas. Per i modelli personalizzati, è possibile creare set di dati per dati tabulari e di immagini. Per i modelli pronti all’uso, puoi utilizzare set di dati tabulari, di immagini e di documenti. Scegli il tuo flusso di lavoro in base alle informazioni seguenti:
-
Per dati categorici, numerici, testuali e di serie temporali, consulta Importazione dei dati tabulari.
-
Per i dati di immagini, consulta Importazione dei dati di immagini.
-
Per i dati dei documenti, consulta Importazione di dati dei documenti.
Un set di dati può essere composto da più file. Ad esempio, potresti avere più file di dati di inventario in formato CSV. È possibile caricare questi file insieme come set di dati purché lo schema (o i nomi delle colonne e i tipi di dati) dei file corrispondano.
Canvas supporta anche la gestione di più versioni del tuo set di dati. Quando crei un set di dati, la prima versione è etichettata come V1. È possibile creare una nuova versione del tuo set di dati aggiornandolo. È possibile eseguire un aggiornamento manuale oppure impostare una pianificazione automatica per l'aggiornamento del set di dati con nuovi dati. Per ulteriori informazioni, consulta Aggiornamento di un set di dati.
Quando importi i tuoi dati in Canvas, assicurati che soddisfino i requisiti di input nella tabella seguente. Le limitazioni sono specifiche del tipo di modello che stai creando.
| Limite | Modelli a 2 categorie, a 3 o più categorie, numerici e modelli di serie temporali | Modelli di previsione di testo | Modelli di previsione di immagini | *Dati di documenti per modelli pronti all'uso |
|---|---|---|---|---|
Tipi di file supportati |
CSV e Parquet (caricamento locale, Amazon S3 o database) JSON (database) |
CSV e Parquet (caricamento locale, Amazon S3 o database) JSON (database) |
JPG, PNG |
PDF, JPG, PNG, TIFF |
Dimensione massima dei file |
Caricamento locale: 5 GB Origini dati: PB |
Caricamento locale: 5 GB Origini dati: PB |
30 MB per immagine |
5 MB per documento |
Numero massimo di file che puoi caricare alla volta |
30 |
30 |
N/D |
N/D |
Numero massimo di colonne |
1.000 |
1.000 |
N/D |
N/D |
Numero massimo di voci (righe, immagini o documenti) per le Creazioni rapide |
N/D |
7.500 righe |
5.000 immagini |
N/D |
Numero massimo di voci (righe, immagini o documenti) per le Creazioni standard |
N/D |
150.000 righe |
180.000 immagini |
N/D |
Numero minimo di voci (righe) per le Creazioni rapide |
A 2 categorie: 500 righe A 3 o più categorie, numeriche, serie temporali: N/D |
N/D |
N/D |
N/D |
Numero minimo di voci (righe, immagini o documenti) per le Creazioni standard |
250 righe |
50 righe |
50 immagini |
N/D |
|
Numero minimo di voci (righe o immagini) per etichetta |
N/D |
25 righe |
25 righe |
N/D |
Numero minimo di etichette |
A 2 categorie: 2 A 3 o più categorie: 3 Numerico, serie temporali: N/D |
2 |
2 |
N/D |
|
Dimensione minima del campione per il campionamento casuale |
500 |
N/D |
N/D |
N/D |
|
Dimensione massima del campione per il campionamento casuale |
200.000 |
N/D |
N/D |
N/D |
| Numero massimo di etichette |
A 2 categorie: 2 A 3 o più categorie, numeriche, serie temporali: N/D |
1000 |
1000 |
N/D |
*I dati del documento sono attualmente supportati solo per i modelli pronti all'uso che accettano i dati del documento. Non è possibile creare un modello personalizzato con i dati del documento.
Si noti inoltre che sono valide le seguenti limitazioni:
-
Quando importi dati da un bucket Amazon S3, verifica che il nome del bucket Amazon S3 non contenga un
.. Se il nome del bucket contiene un., potresti riscontrare errori quando cerchi di importare i dati in Canvas. -
Per i dati tabulari, Canvas non consente la selezione di file con estensioni diverse da .csv, .parquet, .parq e .pqt sia per il caricamento locale che per l'importazione da Amazon S3. I file CSV possono utilizzare qualsiasi delimitazione generale o personalizzata e non devono contenere caratteri di nuova riga, tranne quando indicano effettivamente una nuova riga.
-
Per i dati tabulari che utilizzano i file Parquet, tieni presente quanto segue:
I file Parquet non possono includere tipi complessi come mappe ed elenchi.
I nomi delle colonne dei file Parquet non possono contenere spazi.
Se si utilizza la compressione, i file Parquet devono utilizzare tipi di compressione gzip o snappy. Per ulteriori informazioni sui tipi di compressione precedenti, consulta la documentazione di gzip
e la documentazione di snappy .
-
Per quanto riguarda i dati di immagini, se hai immagini senza etichetta, devi etichettarle prima di creare il modello. Per informazioni su come assegnare etichette alle immagini all'interno dell'applicazione Canvas, consulta Modifica di un set di dati di immagini.
-
Se si impostano aggiornamenti automatici dei set di dati o configurazioni automatiche di previsione in batch, è possibile creare solo un totale di 20 configurazioni nell'applicazione Canvas. Per ulteriori informazioni, consulta Come gestire le automazioni.
Dopo aver importato un set di dati, è possibile visualizzarli nella pagina Set di dati in qualsiasi momento.
Importazione dei dati tabulari
Con i set di dati tabulari, è possibile creare modelli di previsione categoriale, numerica, di previsione di serie temporali e di previsione testuale. Esamina la tabella delle limitazioni nella sezione precedente Importazione di un set di dati per assicurarti che il set di dati di immagini soddisfi i requisiti per i dati tabulari.
Attieniti alla procedura seguente per importare un set di dati tabulare in Canvas:
-
Apri l'applicazione SageMaker Canvas.
-
Nel pannello di navigazione a sinistra, scegli Set di dati.
-
Scegli Import data (Importa dati).
-
Dal menu a discesa, scegli Tabulare.
-
Nella finestra di dialogo popup, nel campo Nome set di dati, inserisci un nome per il set di dati e scegli Crea.
-
Nella pagina Crea set di dati tabulare, apri il menu a discesa Origine dati.
-
Seleziona l'origine dati:
-
Per caricare file dal computer, seleziona Caricamento locale.
-
Per importare dati da un'altra origine, ad esempio un bucket Amazon S3 o un database Snowflake, cerca la tua origine dati nella barra Cerca origine dati. Quindi scegli il riquadro per l’origine dati desiderata.
Nota
È possibile importare dati solo dai riquadri che hanno una connessione attiva. Se desideri connetterti a un'origine dati che non è disponibile per te, contatta l'amministratore. Se sei un amministratore, consulta Connessione alle origini dati.
Il seguente screenshot mostra il menu a discesa Origine dati.
-
-
(Facoltativo) Se ti connetti a un database Amazon Redshift o Snowflake per la prima volta, viene visualizzata una finestra di dialogo per creare una connessione. Compila la finestra di dialogo con le tue credenziali e scegli Crea connessione. Se hai già una connessione, scegli la tua.
-
Dall’origine dati, seleziona i file da importare. Per il caricamento e l'importazione locali da Amazon S3, è possibile selezionare i file. Solo per Amazon S3, hai anche la possibilità di inserire direttamente l’URI, l’alias o l’ARN S3 del tuo bucket o punto di accesso S3 nel campo Inserisci endpoint S3, quindi scegliere i file da importare. Per le origini di database, è possibile trascinare le tabelle di dati dal riquadro di navigazione a sinistra.
-
(Facoltativo) Per le origini dati tabulari che supportano le query SQL (come Amazon Redshift, Amazon Athena o Snowflake), puoi scegliere Modifica in SQL per creare query SQL prima di importarle.
Il seguente screenshot mostra la visualizzazione Modifica SQL per un'origine dati Amazon Athena.
-
Scegli Anteprima set di dati per visualizzare l’anteprima del set di dati prima dell’importazione.
-
In Impostazioni di importazione, inserisci un valore in Nome del set di dati o utilizza il nome del set di dati predefinito.
-
(Facoltativo) Per i dati importati da Amazon S3, vengono visualizzate le impostazioni Avanzate e puoi compilare i seguenti campi:
Attiva l’opzione Utilizza la prima riga come intestazione se intendi utilizzare la prima riga del set di dati per i nomi delle colonne. Se hai selezionato più file, l’impostazione si applica a ogni file.
Se stai importando un file CSV, nell’elenco a discesa Codifica file (CSV) seleziona la codifica del file del set di dati.
UTF-8è l’impostazione predefinita.Nell’elenco a discesa Delimitatore, seleziona il delimitatore che separa ogni cella dei tuoi dati. Il delimitatore predefinito è
,. Puoi anche specificare un delimitatore personalizzato.Seleziona Rilevamento di più righe se desideri che Canvas analizzi manualmente l’intero set di dati alla ricerca di celle con più righe. Per impostazione predefinita, questa opzione non è selezionata e Canvas determina se utilizzare o meno il supporto di più righe prelevando un campione dei tuoi dati. Tuttavia, Canvas potrebbe non rilevare alcuna cella di più righe nel campione. Se sono presenti celle di più righe, ti consigliamo di selezionare l’opzione Rilevamento di più righe per forzare Canvas a verificare la presenza di tali celle nell’intero set di dati.
Quando è tutto pronto per importare i dati, seleziona Crea set di dati.
Durante l'importazione del set di dati in Canvas, è possibile vedere i tuoi set di dati elencati nella pagina Set di dati. In questa pagina, è possibile Visualizzazione dei dettagli dei set di dati.
Quando lo Stato dei tuoi set di dati si presenta come Ready, Canvas ha importato correttamente i dati ed è possibile procedere con la creazione di un modello.
Se disponi di una connessione a un'origine dati, ad esempio un database Amazon Redshift o un connettore SaaS, è possibile tornare a quella connessione. Per Amazon Redshift e Snowflake, è possibile aggiungere un'altra connessione creando un altro set di dati, tornando alla pagina Importa dati e scegliendo il riquadro Origine dati per quella connessione. Dal menu a discesa, è possibile aprire la connessione precedente o scegliere Aggiungi connessione.
Nota
Per le piattaforme SaaS, è possibile avere solo una connessione per origine dati.
Importazione dei dati di immagini
Con i set di dati di immagini, è possibile creare modelli personalizzati di previsione delle immagini con etichetta singola, che prevedono l'etichetta di un'immagine. Esamina la tabella delle limitazioni nella sezione precedente Importa un set di dati per assicurarti che il set di dati di immagini soddisfi i requisiti per gli stessi.
Nota
È possibile importare set di dati di immagini solo dal caricamento di file locali o da un bucket Amazon S3 Inoltre, per i set di dati di immagini, devi avere almeno 25 immagini per etichetta.
Utilizza la procedura seguente per importare un set di dati di immagini in Canvas:
-
Apri l'applicazione SageMaker Canvas.
-
Nel pannello di navigazione a sinistra, scegli Set di dati.
-
Scegli Import data (Importa dati).
-
Dal menu a discesa, scegli Immagine.
-
Nella finestra di dialogo popup, nel campo Nome set di dati, inserisci un nome per il set di dati e scegli Crea.
-
Nella pagina Importa, apri il menu a discesa Origine dati.
-
Scegli l'origine dati. Per caricare file dal computer, seleziona Caricamento locale. Per importare file da Amazon S3, seleziona AmazonS3.
-
Dal computer o dal bucket Amazon S3, seleziona le immagini o le cartelle di immagini che desideri caricare.
-
Quando è tutto pronto per importare i dati, seleziona Importa dati.
Durante l'importazione del set di dati in Canvas, è possibile vedere i tuoi set di dati elencati nella pagina Set di dati. In questa pagina, è possibile Visualizzazione dei dettagli dei set di dati.
Quando lo Stato dei tuoi set di dati si presenta come Ready, Canvas ha importato correttamente i dati ed è possibile procedere con la creazione di un modello.
Durante la creazione del modello, è possibile modificare il set di dati di immagini e assegnare o riassegnare etichette, aggiungere immagini o eliminare immagini dal set di dati. Per ulteriori informazioni su come modificare il set di dati di immagini, consulta Modifica di un set di dati di immagini.
Importazione di dati dei documenti
I modelli pronti all'uso per l'analisi delle spese, l'analisi dei documenti di identità, l'analisi dei documenti e le query di documenti supportano i dati dei documenti. Non è possibile creare un modello personalizzato con i dati del documento.
Con i set di dati dei documenti, è possibile generare previsioni per l'analisi delle spese, l'analisi dei documenti di identità, l'analisi dei documenti e modelli pronti all'uso per le query di documenti. Consulta la tabella delle limitazioni nella sezione Creazione di un set di dati per assicurarti che il set di dati di documenti soddisfi i requisiti per gli stessi.
Nota
È possibile importare set di dati di immagini solo dal caricamento di file locali o da un bucket Amazon S3.
Attieniti alla procedura seguente per importare un set di dati di documenti in Canvas:
-
Apri l'applicazione SageMaker Canvas.
-
Nel pannello di navigazione a sinistra, scegli Set di dati.
-
Scegli Import data (Importa dati).
-
Dal menu a discesa scegli Documento.
-
Nella finestra di dialogo popup, nel campo Nome set di dati, inserisci un nome per il set di dati e seleziona Crea.
-
Nella pagina Importa, apri il menu a discesa Origine dati.
-
Scegli l'origine dati. Per caricare file dal computer, seleziona Caricamento locale. Per importare file da Amazon S3, seleziona AmazonS3.
-
Dal computer o dal bucket Amazon S3, seleziona i file di documento che desideri caricare.
-
Quando è tutto pronto per importare i dati, seleziona Importa dati.
Durante l'importazione del set di dati in Canvas, è possibile vedere i tuoi set di dati elencati nella pagina Set di dati. In questa pagina, è possibile Visualizzazione dei dettagli dei set di dati.
Quando lo Stato dei tuoi set di dati si presenta come Ready, Canvas ha importato i dati con successo.
Nella pagina Set di dati, è possibile scegliere il tuo set di dati per visualizzarne l'anteprima, che mostrerà fino ai primi 100 documenti.
Visualizzazione dei dettagli dei set di dati
Per ciascuno dei tuoi set di dati, è possibile visualizzare tutti i file in un set di dati, la cronologia delle versioni del set di dati e qualsiasi configurazione di aggiornamento automatico per il set di dati. Dalla pagina Set di dati, puoi anche avviare azioni come Aggiornamento di un set di dati o Funzionamento dei modelli personalizzati.
Per visualizzare i dettagli di un set di dati, effettua le seguenti operazioni:
-
Apri l'applicazione SageMaker Canvas.
-
Nel pannello di navigazione a sinistra, scegli Set di dati.
-
Dall'elenco dei set di dati, scegli il tuo set di dati.
Nella scheda Dati, è possibile vedere un'anteprima dei tuoi dati. Se scegli Dettagli dei set di dati, è possibile visualizzare tutti i file che fanno parte del tuo set di dati. Scegli un file per visualizzare solo i dati di quel file nell'anteprima. Per i set di dati di immagini, l'anteprima mostra solo le prime 100 immagini del tuo set di dati.
Nella scheda Cronologia delle versioni, è possibile visualizzare un elenco di tutte le versioni del tuo set di dati. Ogni volta che aggiorni un set di dati viene creata una nuova versione. Per scoprire di più sull'aggiornamento di un set di dati, consulta Aggiornamento di un set di dati. Il seguente screenshot mostra la scheda Cronologia delle versioni nell'applicazione Canvas.
Nella scheda Aggiornamenti automatici, è possibile abilitare gli aggiornamenti automatici per il set di dati e impostare una configurazione per aggiornare il set di dati a intervalli regolari. Per scoprire di più sulla configurazione degli aggiornamenti automatici per i set di dati, consulta Configurazione degli aggiornamenti automatici per un set di dati. Il seguente screenshot mostra la scheda Aggiornamenti automatici con gli aggiornamenti automatici attivati e un elenco dei processi di aggiornamento automatico che sono stati eseguiti sul set di dati.