Preparazione dei dati - Amazon SageMaker AI

Preparazione dei dati

Nota

In precedenza, Amazon SageMaker Data Wrangler faceva parte dell’esperienza SageMaker Studio Classic. Ora, se esegui l’aggiornamento alla nuova esperienza Studio, devi utilizzare SageMaker Canvas per accedere a Data Wrangler e ricevere gli ultimi aggiornamenti delle funzionalità. Se finora hai utilizzato Data Wrangler in Studio Classic e desideri eseguire la migrazione a Data Wrangler in Canvas, potresti dover concedere autorizzazioni aggiuntive per creare e utilizzare un’applicazione Canvas. Per ulteriori informazioni, consulta (Facoltativo) Migrazione da Data Wrangler in Studio Classic a SageMaker Canvas.

Per informazioni su come eseguire la migrazione dei flussi di dati da Data Wrangler a Studio Classic, consulta (Facoltativo) Migrazione dei dati da Studio Classic a Studio.

Utilizza Amazon SageMaker Data Wrangler in Amazon SageMaker Canvas per preparare, personalizzare e analizzare i tuoi dati. Puoi integrare un flusso di preparazione dei dati di Data Wrangler nei flussi di lavoro di machine learning (ML) per semplificare e ottimizzare la preelaborazione dei dati e l'ingegneria delle funzionalità utilizzando poca o nessuna codifica. Puoi anche aggiungere i tuoi script e le trasformazioni Python per personalizzare i flussi di lavoro.

  • Flusso di dati: crea un flusso di dati per definire una serie di fasi di preparazione dei dati ML. Puoi utilizzare un flusso per combinare set di dati provenienti da diverse origini dati, identificare il numero e i tipi di trasformazioni che desideri applicare ai set di dati e definire un flusso di lavoro di preparazione dei dati che può essere integrato in una pipeline ML.

  • Trasforma: pulisci e trasforma il tuo set di dati utilizzando trasformazioni standard come strumenti di formattazione di dati in stringhe, vettoriali e numerici. Personalizza i tuoi dati utilizzando trasformazioni come l'incorporamento di testo e data/ora e la codifica categoriale.

  • Genera informazioni sui dati: verifica automaticamente la qualità dei dati e rileva le anomalie nei dati con il report Qualità e informazioni approfondite sui dati di Data Wrangler.

  • Analizza: analizza le funzionalità del tuo set di dati in qualsiasi momento del flusso. Data Wrangler include strumenti integrati di visualizzazione dei dati come grafici a dispersione e istogrammi, oltre a strumenti di analisi dei dati come l'analisi delle fughe di obiettivi e la modellazione rapida per comprendere la correlazione delle funzionalità.

  • Esporta: esporta il flusso di lavoro di preparazione dei dati in una posizione diversa. Di seguito sono riportati alcuni esempi di posizioni:

    • Bucket Amazon Simple Storage Service (Amazon S3)

    • Amazon SageMaker Feature Store: archivia le funzionalità e i relativi dati in un archivio centralizzato.

  • Automatizza la preparazione dei dati: crea flussi di lavoro di machine learning dal tuo flusso di dati.

    • Amazon SageMaker Pipelines: crea flussi di lavoro che gestiscono i processi di preparazione dei dati, addestramento dei modelli e implementazione dei modelli di SageMaker AI.

    • Pipeline di inferenza seriale: crea una pipeline di inferenza seriale dal tuo flusso di dati. Utilizzala per generare previsioni sui nuovi dati.

    • Script Python: archivia i dati e le loro trasformazioni in uno script Python per i tuoi flussi di lavoro personalizzati.