Importazione dei dati
Amazon SageMaker Canvas supporta l'importazione di dati tabulari, di immagini e dei documenti. Puoi importare set di dati dal tuo computer locale, da servizi Amazon come Amazon S3 e Amazon Redshift e da origini dati esterne. Quando importi set di dati da Amazon S3, i set di dati possono avere qualsiasi dimensione. Utilizza i set di dati che importi per creare modelli e fare previsioni per altri set di dati.
Ogni caso d'uso per il quale è possibile creare un modello personalizzato accetta diversi tipi di input. Ad esempio, se desideri creare un modello di classificazione delle immagini a etichetta singola, devi importare i dati di immagini. Per ulteriori informazioni sui diversi tipi di modello e sui dati che accettano, consulta Funzionamento dei modelli personalizzati. È possibile importare dati e creare modelli personalizzati in SageMaker Canvas per i seguenti tipi di dati:
-
Tabulare (CSV, Parquet o tabelle)
Categoriale: utilizza i dati categoriali per creare modelli di previsione categoriali personalizzati per previsioni a 2 e 3 o più categorie.
Numerico: utilizza dati numerici per creare modelli di previsione numerici personalizzati.
Testo: utilizza i dati di testo per creare modelli di previsione testuale multicategoria personalizzati.
Serie temporali: utilizza i dati delle serie temporali per creare modelli di previsione di serie temporali personalizzati.
Immagine (JPG o PNG): utilizza i dati di immagini per creare modelli di previsione delle immagini personalizzati con etichetta singola.
Documento (PDF, JPG, PNG, TIFF): i dati del documento sono supportati solo per i modelli SageMaker Canvas pronti all'uso. Per ulteriori informazioni sui modelli pronti all'uso in grado di effettuare previsioni per i dati dei documenti, consulta Modelli pronti all’uso..
È possibile importare dati in Canvas dalle seguenti origini dati:
File locali sul tuo computer
Bucket Amazon S3
Cluster con provisioning Amazon Redshift (non Amazon Redshift serverless)
AWS Glue Data Catalog tramite Amazon Athena
-
Amazon Aurora
-
Amazon Relational Database Service (Amazon RDS)
-
Data Cloud di Salesforce
Snowflake
-
Databricks, SQLServer, MariaDB e altri database popolari tramite connettori JDBC
Oltre 40 piattaforme SaaS esterne, come SAP OData
Per un elenco completo di origini dati da cui è possibile eseguire l’importazione, consulta la seguente tabella:
| Origine | Tipo | Tipi di dati supportati |
|---|---|---|
Caricamento dei file locali |
Locale |
Tabella, immagine, documento |
Amazon Aurora |
Interno di Amazon |
Tabulare |
Bucket Amazon S3 |
Interno di Amazon |
Tabella, immagine, documento |
Amazon RDS |
Interno di Amazon |
Tabulare |
Cluster con provisioning Amazon Redshift (non Redshift serverless) |
Interno di Amazon |
Tabulare |
AWS Glue Data Catalog (tramite Amazon Athena) |
Interno di Amazon |
Tabulare |
Esterno |
Tabulare |
|
Snowflake |
Esterno |
Tabulare |
Esterno |
Tabulare |
|
SQLServer |
Esterno |
Tabulare |
MySQL |
Esterno |
Tabulare |
PostgreSQL |
Esterno |
Tabulare |
MariaDB |
Esterno |
Tabulare |
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
|
Piattaforma SaaS esterna |
Tabulare |
Per istruzioni su come importare dati e informazioni sui requisiti dei dati di input, ad esempio la dimensione massima del file per le immagini, consulta Creazione di un set di dati.
Canvas fornisce anche diversi set di dati di esempio nell'applicazione per aiutarti a iniziare. Per saperne di più sui set di dati di esempio forniti da SageMaker AI su cui condurre esperimenti, consulta Utilizzo dei set di dati di esempio.
Dopo aver importato un set di dati in Canvas, è possibile aggiornare il set di dati in qualsiasi momento. È possibile eseguire un aggiornamento manuale o impostare una pianificazione per gli aggiornamenti automatici dei set di dati. Per ulteriori informazioni, consulta Aggiornamento di un set di dati.
Per ulteriori informazioni specifiche per ciascun tipo di set di dati, consulta le sezioni seguenti:
Tabulare
Per importare dati da un'origine dati esterna (come un database Snowflake o una piattaforma SaaS), è necessario autenticarsi e connettersi all'origine dati nell'applicazione Canvas. Per ulteriori informazioni, consulta Connessione alle origini dati.
Se intendi importare set di dati di dimensioni superiori a 5 GB da Amazon S3 in Canvas, puoi ottenere un campionamento più rapido utilizzando Amazon Athena per eseguire query e campionamento dei dati da Amazon S3.
Dopo aver creato i set di dati in Canvas, puoi preparare e trasformare i dati con la funzionalità di preparazione dei dati di Data Wrangler. Puoi utilizzare Data Wrangler per gestire i valori mancanti, trasformare le funzionalità, eseguire il join di più set di dati in un unico set di dati e altro ancora. Per ulteriori informazioni, consulta Preparazione dei dati.
Suggerimento
Finché i dati sono disposti in tabelle, è possibile unire set di dati provenienti da varie fonti, come Amazon Redshift, Amazon Athena o Snowflake.
Immagine
Per informazioni su come modificare un set di dati di immagini ed eseguire attività come l'assegnazione o la riassegnazione di etichette, l'aggiunta di immagini o l'eliminazione di immagini, consulta Modifica di un set di dati di immagini.