Funzionamento dei modelli personalizzati
Utilizza Amazon SageMaker Canvas per creare un modello personalizzato sul set di dati che hai importato. Utilizza il modello creato per effettuare previsioni su nuovi dati. SageMaker Canvas utilizza le informazioni del set di dati per creare fino a 250 modelli e scegli quello con le prestazioni migliori.
Quando si inizia a creare un modello, Canvas consiglia automaticamente uno o più tipi di modelli. I tipi di modelli rientrano in una delle seguenti categorie:
-
Previsione numerica: nel machine learning si chiama regressione. Utilizza il tipo di modello di previsione numerica quando desideri fare previsioni per dati numerici. Ad esempio, potresti voler prevedere il prezzo delle case in base a caratteristiche come la metratura della casa.
-
Previsione categorica: nel machine learning si chiama classificazione. Quando desideri categorizzare i dati in gruppi, utilizza i tipi di modelli di previsione categorica:
-
Previsione a 2 categorie: utilizza il tipo di modello di previsione a 2 categorie (noto anche come classificazione binaria nel machine learning) quando hai due categorie da prevedere per i tuoi dati. Ad esempio, potresti determinare se è probabile che un cliente abbandoni.
-
Previsione a 3 o più categorie: utilizza il tipo di modello di previsione a 3 o più categorie (noto anche come classificazione multiclasse nel machine learning) quando hai tre o più categorie che desideri prevedere per i tuoi dati. Ad esempio, è possibile prevedere lo stato del prestito di un cliente in base a caratteristiche quali i pagamenti precedenti.
-
-
Previsione delle serie temporali: utilizza le previsioni delle serie temporali quando desideri fare previsioni su un periodo di tempo. Ad esempio, potresti dover prevedere il numero di articoli che venderai nel trimestre successivo. Per informazioni sulle previsioni delle serie temporali, consulta Time Series Forecasts in Amazon SageMaker Canvas.
-
Previsione delle immagini: utilizza il tipo di modello di previsione delle immagini a etichetta singola (noto anche come classificazione delle immagini a etichetta singola nel machine learning) quando desideri assegnare etichette alle immagini. Ad esempio, è possibile classificare diversi tipi di difetti di fabbricazione nelle immagini del prodotto.
-
Previsione del testo: utilizza il tipo di modello di previsione del testo multicategoria (noto anche come classificazione del testo multiclasse nel machine learning) quando desideri assegnare etichette a passaggi di testo. Ad esempio, potresti avere un set di dati di verifiche dei clienti su un prodotto e desideri determinare se i clienti hanno apprezzato o meno il prodotto. Potresti fare in modo che il tuo modello preveda se un determinato passaggio di testo è
Positive,NegativeoNeutral.
Per una tabella dei tipi di dati di input supportati per ogni tipo di modello, consulta Modelli personalizzati.
Per ogni modello di dati tabulare che crei (che include modelli numerici, categorici, di previsione di serie temporali e modelli di previsione testuale), scegli la Colonna di destinazione. La Colonna di destinazione è la colonna che contiene le informazioni che desideri prevedere. Ad esempio, se stai creando un modello per prevedere se le persone hanno annullato i loro abbonamenti, la Colonna di destinazione contiene punti dati che indicano o yes o un no circa lo stato di cancellazione di qualcuno.
Per i modelli di previsione delle immagini, crei il modello con un set di dati di immagini a cui sono state assegnate delle etichette. Per le immagini senza etichetta fornite, il modello prevede un'etichetta. Ad esempio, se stai creando un modello per prevedere se un'immagine è un gatto o un cane, fornisci immagini etichettate come cani o gatti durante la creazione del modello. Quindi, il modello può accettare immagini senza etichetta e prevederle come cani o gatti.
Cosa succede quando crei un modello
Per creare il tuo modello, puoi scegliere una Creazione rapida o una Creazione standard. La Creazione rapida ha un tempo di creazione più breve, ma la Creazione standard ha generalmente una precisione maggiore.
Per i modelli di previsione tabulari e delle serie temporali, Canvas utilizza il downsampling per ridurre le dimensioni dei set di dati che superano, rispettivamente, i 5 GB o i 30 GB. Canvas esegue il downsampling con il metodo di campionamento stratificato. Nella tabella seguente sono elencate le dimensioni del downsample per tipo di modello. Per controllare il processo di campionamento, puoi utilizzare Data Wrangler in Canvas per applicare la tua tecnica di campionamento preferita. Per i dati di serie temporali, puoi ripetere il campionamento per aggregare i punti dati. Per ulteriori informazioni sul campionamento, consulta Campionamento. Per ulteriori informazioni sul ricampionamento dei dati di serie temporali, consulta Ricampiona i dati di serie temporali.
Se scegli di eseguire una build rapida su un set di dati con più di 50.000 righe, Canvas campiona i dati fino a 50.000 righe per abbreviare il tempo di addestramento dei modelli.
La tabella seguente riassume le caratteristiche chiave del processo di creazione dei modelli, inclusi i tempi medi di creazione per ogni modello e tipo di build, la dimensione del downsample durante la creazione dei modelli con set di dati di grandi dimensioni e il numero minimo e massimo di punti dati necessari per ogni tipo di build.
| Limite | Modelli di previsione numerici e categorici | Previsione di serie temporali | Previsione delle immagini | Previsione del testo |
|---|---|---|---|---|
Tempo per la build rapida |
2-20 minuti |
2-20 minuti |
15‐30 minuti |
15‐30 minuti |
Tempo per la build standard |
2-4 ore |
2-4 ore |
2-5 ore |
2-5 ore |
Dimensione del downsample (la dimensione ridotta di un set di dati di grandi dimensioni dopo il downsampling di Canvas) |
5 GB |
30 GB |
N/D |
N/D |
Numero minimo di voci (righe) per le Creazioni rapide |
A 2 categorie: 500 righe A 3 o più categorie, numeriche, serie temporali: N/D |
N/D |
N/D |
N/D |
Numero minimo di voci (righe, immagini o documenti) per le Creazioni standard |
250 |
50 |
50 |
N/D |
Numero massimo di voci (righe, immagini o documenti) per le Creazioni rapide |
N/D |
N/D |
5000 |
7500 |
Numero massimo di voci (righe, immagini o documenti) per le Creazioni standard |
N/D |
150.000 |
180.000 |
N/D |
Numero massimo di colonne |
1.000 |
1.000 |
N/D |
N/D |
Canvas prevede i valori utilizzando le informazioni nel resto del set di dati, a seconda del tipo di modello:
-
Per la previsione categorica, Canvas inserisce ogni riga in una delle categorie elencate nella Colonna di destinazione.
-
Per la previsione numerica, Canvas utilizza le informazioni nel set di dati per prevedere i valori numerici nella Colonna di destinazione.
-
Per la previsione delle serie temporali, Canvas utilizza i dati storici per prevedere i valori della Colonna di destinazione in futuro.
-
Per la previsione delle immagini, Canvas utilizza immagini a cui sono state assegnate etichette per prevedere etichette per le immagini senza etichetta.
-
Per la previsione del testo, Canvas analizza i dati di testo a cui sono state assegnate etichette per prevedere le etichette per i passaggi di testo senza etichetta.
Funzionalità aggiuntive per aiutarti a creare il tuo modello
Prima di creare il modello, puoi utilizzare Data Wrangler in Canvas per preparare i dati con oltre 300 trasformazioni e operatori integrati. Data Wrangler supporta le trasformazioni per set di dati sia tabulari che di immagini. Inoltre, puoi connetterti a origini dati esterne a Canvas, creare processi per applicare le trasformazioni all’intero set di dati ed esportare i dati completamente preparati e puliti per utilizzarli nei flussi di lavoro di ML al di fuori di Canvas. Per ulteriori informazioni, consulta Preparazione dei dati.
Per accedere a visualizzazioni e analisi per esplorare i dati e determinare quali funzionalità includere nel modello, puoi utilizzare le analisi integrate di Data Wrangler. Puoi anche accedere a un report Qualità e informazioni approfondite sui dati che evidenzia i potenziali problemi del tuo set di dati e offre suggerimenti su come risolverli. Per ulteriori informazioni, consulta Esecuzione di un’analisi esplorativa dei dati (EDA).
Oltre alle funzionalità più avanzate di preparazione ed esplorazione dei dati fornite da Data Wrangler, Canvas offre anche alcune funzionalità di base:
Per filtrare i dati e accedere a una serie di trasformazioni dei dati di base, consulta Preparazione dei dati per la creazione dei modelli.
Per accedere a visualizzazioni e analisi semplici per l’esplorazione delle funzionalità, consulta Esplorazione e analisi dei dati.
Per ulteriori informazioni su funzionalità aggiuntive come l'anteprima del modello, la convalida del set di dati e la modifica della dimensione del campione casuale utilizzato per creare il modello, consulta Visualizzazione dell'anteprima del modello.
Per i set di dati tabulari con più colonne (ad esempio set di dati per la creazione di tipi di modelli di previsione categorica, numerica o di serie temporali), potresti avere righe con punti dati mancanti. Mentre Canvas crea il modello, aggiunge automaticamente i valori mancanti. Canvas utilizza i valori del set di dati per eseguire un'approssimazione matematica dei valori mancanti. Per la massima precisione del modello, ti consigliamo di aggiungere i dati mancanti, se riesci a trovarli. Tieni presente che la funzionalità relativa ai dati mancanti non è supportata per i modelli di previsione di testo o delle immagini.
Nozioni di base
Per iniziare a creare un modello personalizzato, consulta Crea un modello e segui la procedura relativa al tipo di modello che desideri creare.