Creare un esperimento Autopilot di regressione o classificazione per dati tabulari utilizzando l’interfaccia utente di Studio Classic - Amazon SageMaker AI

Creare un esperimento Autopilot di regressione o classificazione per dati tabulari utilizzando l’interfaccia utente di Studio Classic

Importante

A partire dal 30 novembre 2023, l’interfaccia utente di Autopilot è in fase di migrazione ad Amazon SageMaker Canvas nell’ambito dell’esperienza Amazon SageMaker Studio aggiornata. SageMaker Canvas offre agli analisti e ai citizen data scientist funzionalità no code per attività come la preparazione dei dati, l’ingegneria delle caratteristiche, la selezione degli algoritmi, l’addestramento e l’ottimizzazione, l’inferenza e altro ancora. Gli utenti possono sfruttare le visualizzazioni integrate e l’analisi ipotetica per esplorare i propri dati e diversi scenari, con previsioni automatizzate che consentono loro di produrre facilmente i propri modelli. Canvas supporta una varietà di casi d’uso, tra cui visione artificiale, previsione della domanda, Ricerca intelligente e IA generativa.

Gli utenti di Amazon SageMaker Studio Classic, l’esperienza precedente di Studio, possono continuare a utilizzare l’interfaccia utente di Autopilot in Studio Classic. Gli utenti con esperienza di programmazione possono continuare a utilizzare tutti i riferimenti API in qualsiasi SDK supportato per l’implementazione tecnica.

Se finora hai utilizzato Autopilot in Studio Classic e desideri eseguire la migrazione a SageMaker Canvas, potresti dover concedere autorizzazioni aggiuntive al tuo profilo utente o ruolo IAM per creare e utilizzare l’applicazione SageMaker Canvas. Per ulteriori informazioni, consulta (Facoltativo) Migrazione da Autopilot in Studio Classic a SageMaker Canvas.

Tutte le istruzioni relative all’interfaccia utente contenute in questa guida riguardano le funzionalità standalone di Autopilot prima della migrazione ad Amazon SageMaker Canvas. Gli utenti che seguono queste istruzioni devono utilizzare Studio Classic.

È possibile utilizzare l’interfaccia utente di Amazon SageMaker Studio Classic per creare esperimenti Autopilot per problemi di classificazione o regressione su dati tabulari. L’interfaccia utente consente di specificare il nome dell’esperimento, fornire posizioni per i dati di input e output e specificare quali dati di destinazione prevedere. Facoltativamente, è anche possibile specificare il tipo di problema da risolvere (regressione, classificazione, classificazione multiclasse), scegliere la strategia di modellazione (ensemble impilati oppure ottimizzazione degli iperparametri), selezionare l’elenco di algoritmi utilizzati dal processo Autopilot per addestrare i dati e altro ancora.

L'interfaccia utente include descrizioni, interruttori, menu a discesa, pulsanti di opzione e altro per aiutarti a orientarti nella creazione dei tuoi modelli di candidati. Dopo l’esecuzione dell’esperimento, è possibile confrontare le prove e approfondire i dettagli delle fasi di pre-elaborazione, degli algoritmi e degli intervalli di iperparametri di ciascun modello. È inoltre possibile scaricare i relativi report sulla spiegabilità e sulle prestazioni. Utilizza i notebook forniti per visualizzare i risultati dell'esplorazione automatica dei dati o le definizioni dei modelli candidati.

In alternativa, è possibile utilizzare l’API Autopilot AutoML in Creare processi di regressione o classificazione per dati tabulari utilizzando l’API AutoML.

Per creare un esperimento Autopilot utilizzando l’interfaccia utente di Studio Classic
  1. Accedi a https://console.aws.amazon.com/sagemaker/, scegli Studio dal riquadro di navigazione a sinistra, quindi seleziona il tuo dominio, il tuo profilo utente e infine Open Studio.

  2. In Studio, scegli l’icona di Studio Classic nel riquadro di navigazione in alto a sinistra. Viene aperta un’app Studio Classic.

  3. Esegui o apri un’applicazione Studio Classic dallo spazio che preferisci oppure crea uno spazio Studio Classic. Nella scheda Home, scegli la scheda AutoML. Si aprirà una nuova scheda AutoML.

  4. Scegli Crea un esperimento AutoML. Si aprirà una nuova scheda Crea esperimento.

  5. Nella sezione Dettagli dell'esperimento e dei dati, inserisci le seguenti informazioni:

    1. Nome dell'esperimento: deve essere univoco per il tuo account nella versione corrente Regione AWS e contenere un massimo di 63 caratteri alfanumerici. Può includere trattini (-) ma non spazi.

    2. Dati di input: fornisci la posizione del bucket Amazon Simple Storage Service (Amazon S3) dei dati di input. Questo bucket S3 deve trovarsi nella tua Regione AWS attuale. L’URL deve essere in un formato s3:// in cui Amazon SageMaker AI disponga di autorizzazioni di scrittura. Il file deve essere in formato CSV o Parquet e contenere almeno 500 righe. Seleziona Sfoglia per scorrere i percorsi disponibili e Anteprima per visualizzare un esempio dei dati di input.

    3. L'input S3 è un file manifesto? – Un file manifesto include metadati con i dati di input. I metadati specificano la posizione dei dati in Amazon S3. Specificano inoltre come vengono formattati i dati e quali attributi del set di dati utilizzare per addestrare il modello. È possibile utilizzare un file manifesto come alternativa alla preelaborazione quando i dati etichettati vengono trasmessi in streaming in modalità Pipe.

    4. Suddivisione automatica dei dati? – Autopilot può suddividere i dati in una suddivisione dell'80-20% dei dati di addestramento e convalida. Se preferisci una suddivisione personalizzata, puoi scegliere Specificare il rapporto di suddivisione. Per utilizzare un set di dati personalizzato per la convalida, scegliere Fornisci un set di convalida.

    5. Posizione dei dati di output (bucket S3): il nome della posizione del bucket S3 in cui desideri archiviare i dati di output. L’URL di questo bucket deve essere in un formato Amazon S3 in cui Amazon SageMaker AI disponga di autorizzazioni di scrittura. Il bucket S3 deve trovarsi nella corrente Regione AWS. Autopilot può anche crearlo per te nella stessa posizione dei dati di input.

  6. Scegli Avanti: Target e funzionalità. Si aprirà la scheda Target e funzionalità.

  7. Nella sezione Target e funzionalità:

    • seleziona una colonna da impostare come obiettivo per le previsioni dei modelli.

    • Facoltativamente, puoi inserire il nome di una colonna di pesi del campione nella sezione Peso del campione per richiedere la ponderazione delle righe del set di dati durante l’addestramento e la valutazione. Per ulteriori informazioni sui parametri disponibili, consulta Parametri ponderati per Autopilot.

      Nota

      Il supporto per i pesi dei campioni è disponibile solo in modalità raggruppamento.

    • Puoi anche selezionare le funzionalità per l’addestramento e modificarne il tipo di dati. Sono disponibili i seguenti tipi di dati: TextNumerical,Categorical,Datetime,Sequence, e Auto. Per impostazione predefinita sono selezionate tutte le funzionalità.

  8. Scegli Avanti: metodo di addestramento. Si aprirà la scheda Metodo di addestramento.

  9. Nella sezione Metodo di addestramento, seleziona l'opzione di addestramento: Raggruppamento, Hyperparameter optimization (HPO) o Auto per consentire a Autopilot di scegliere automaticamente il metodo di addestramento in base alla dimensione del set di dati. Ogni modalità di addestramento esegue un set predefinito di algoritmi sul set di dati per addestrare candidati modello. Per impostazione predefinita, Autopilot preseleziona tutti gli algoritmi disponibili per la modalità di addestramento specificata. Puoi eseguire un esperimento di addestramento Autopilot con tutti gli algoritmi o scegliere un sottoinsieme personalizzato.

    Per ulteriori informazioni sulle modalità di addestramento e sugli algoritmi disponibili, consulta la sezione Modalità di addestramento Autopilot nella pagina Modalità di addestramento e algoritmi.

  10. Scegli Avanti: implementazione e impostazioni avanzate per aprire la scheda Implementazione e impostazioni avanzate. Le impostazioni includono il nome dell'endpoint con visualizzazione automatica, il tipo di problema di machine learning e scelte aggiuntive per l'esecuzione dell'esperimento.

    1. Impostazioni di implementazione: Autopilot può creare automaticamente un endpoint e implementare il modello per te.

      Per eseguire l'implementazione automatica su un endpoint generato automaticamente o per fornire un nome di endpoint per l'implementazione personalizzata, imposta l'interruttore su in Implementazione automatica? Se stai importando dati da Amazon SageMaker Data Wrangler, hai a disposizione opzioni aggiuntive per implementare automaticamente il modello migliore con o senza le trasformazioni di Data Wrangler.

      Nota

      Se il flusso di Data Wrangler contiene operazioni su più righe comegroupby, join o concatenate, non puoi eseguire l'implementazione automatica con queste trasformazioni. Per ulteriori informazioni, consulta Addestra automaticamente i modelli sul tuo flusso di dati.

    2. Impostazioni avanzate (facoltative): Autopilot fornisce controlli aggiuntivi per impostare manualmente parametri sperimentali come la definizione del tipo di problema, i vincoli di tempo delle operazioni e le prove Autopilot, le impostazioni di sicurezza e crittografia.

      Nota

      Autopilot supporta l’impostazione di valori predefiniti per semplificare la configurazione degli esperimenti Autopilot utilizzando l’interfaccia utente di Studio Classic. Gli amministratori possono utilizzare le configurazioni del ciclo di vita (LCC) di Studio Classic per impostare i valori di infrastruttura, rete e sicurezza nei file di configurazione e precompilare le impostazioni avanzate dei processi AutoML.

      Per ulteriori informazioni su come gli amministratori possono automatizzare la personalizzazione di un esperimento Autopilot, consulta Configura i parametri predefiniti di un esperimento Autopilot (per amministratori).

      1. Tipo di problema di machine learning: Autopilot può dedurre automaticamente il tipo di problema di apprendimento supervisionato dal set di dati. Se preferisci sceglierlo manualmente, puoi utilizzare il menu a discesa Seleziona il tipo di problema di machine learning. Nota che il valore predefinito è Automatico. In alcuni casi, SageMaker AI non riesce a eseguire l’inferenza in modo accurato. Quando ciò accade, è necessario fornire il valore necessario affinché il processo abbia successo. In particolare, puoi scegliere tra i seguenti tipi:

        • Classificazione binaria: la classificazione binaria assegna i dati di input a una delle due classi predefinite e che si escludono a vicenda, in base ai rispettivi attributi, ad esempio la diagnosi medica basata sui risultati dei test diagnostici che determinano se una persona ha una malattia.

        • Regressione: la regressione stabilisce una relazione tra le variabili di input (note anche come variabili o funzionalità indipendenti) e la variabile target (nota anche come variabile dipendente). Questa relazione viene acquisita tramite una funzione o un modello matematico che mappa le variabili di input su un output continuo. Viene comunemente utilizzata per attività come la previsione dei prezzi delle case in base a caratteristiche come la metratura e il numero di bagni, le tendenze del mercato azionario o la stima dei dati di vendita.

        • Classificazione multiclasse: la classificazione multiclasse assegna i dati di input a una delle diverse classi in base ai relativi attributi, ad esempio la previsione dell'argomento più rilevante per un documento di testo, come politica, finanza o filosofia.

      2. Runtime: è possibile definire un limite di tempo massimo. Al raggiungimento del limite di tempo, le prove e i processi che superano il limite di tempo si interrompono automaticamente.

      3. Accesso: puoi scegliere il ruolo che Amazon SageMaker Studio Classic assume per tuo conto per ottenere l’accesso temporaneo ai Servizi AWS (in particolare, SageMaker AI e Amazon S3). Se nessun ruolo è definito in modo esplicito, Studio Classic utilizza automaticamente il ruolo di esecuzione predefinito di SageMaker AI collegato al profilo utente.

      4. Crittografia: per migliorare la sicurezza dei dati a riposo e proteggerli da accessi non autorizzati, è possibile specificare chiavi di crittografia per crittografare i dati nei bucket Amazon S3 e nel volume Amazon Elastic Block Store (Amazon EBS) collegato al dominio Studio Classic.

      5. Sicurezza: è possibile scegliere il cloud privato virtuale (Amazon VPC) in cui viene eseguito il processo SageMaker AI. Assicurati che Amazon VPC abbia accesso ai tuoi bucket Amazon S3 di input e output.

      6. Progetto: specifica il nome del progetto SageMaker AI da associare a questo esperimento Autopilot e gli output del modello. Quando si specifica un progetto, Autopilot contrassegna il progetto come esperimento. Ciò consente di sapere quali output del modello sono associati a questo progetto.

      7. Tag: i tag sono un array di coppie chiave-valore. Utilizza i tag per classificare le tue risorse da Servizi AWS, come il loro scopo, il proprietario o l'ambiente.

    3. Seleziona Avanti: rivedi e crea per ottenere un riepilogo dell'esperimento Autopilot prima di crearlo.

  11. Seleziona Crea esperimento. La creazione dell’esperimento avvia un processo Autopilot in SageMaker AI. Autopilot fornisce lo stato dell'esperimento, informazioni sul processo di esplorazione dei dati e sui modelli candidati nei notebook, un elenco dei modelli generati e dei relativi report e il profilo professionale utilizzato per crearli.

    Per informazioni sui notebook generati da un processo Autopilot, vedere Notebook Autopilot generati per gestire le attività AutoML. Per informazioni sui dettagli di ciascun modello candidato e sui relativi report, consulta Visualizza i dettagli del modello e Visualizzare un report sulle prestazioni del modello Autopilot.

Nota

Per evitare di incorrere in costi inutili: se implementi un modello che non è più necessario, elimina gli endpoint e le risorse che sono state create durante l'implementazione. Le informazioni sulle istanze di prezzo per Regione sono disponibili nella pagina dei prezzi di Amazon SageMaker.