Generazione di report sulle distorsioni nei dati pre-addestramento in SageMaker Studio - Amazon SageMaker AI

Generazione di report sulle distorsioni nei dati pre-addestramento in SageMaker Studio

SageMaker Clarify è integrato con Amazon SageMaker Data Wrangler, che può aiutarti a identificare errori durante la preparazione dei dati senza dover scrivere codice. Data Wrangler fornisce una soluzione completa per importare, preparare, trasformare, personalizzare e analizzare i dati con Amazon SageMaker Studio. Per una panoramica del flusso di lavoro di preparazione dei dati di Data Wrangler, consulta Prepara i dati ML con Amazon SageMaker Data Wrangler.

Specificando gli attributi di interesse, come il sesso o l'età, SageMaker Clarify esegue una serie di algoritmi per rilevare la presenza di distorsioni in tali attributi. Dopo l'esecuzione dell'algoritmo, SageMaker Clarify fornisce un report visivo con una descrizione delle fonti e della gravità delle possibili distorsioni in modo da poter pianificare le misure per mitigarle. Ad esempio, in un set di dati finanziari che contiene pochi esempi di prestiti commerciali relativi a una fascia di età rispetto alle altre, SageMaker AI segnala lo squilibrio in modo da evitare un modello che potrebbe penalizzare quella fascia di età.

Analisi e segnalazione di eventuali distorsioni nei dati

Per iniziare a usare Data Wrangler consulta Inizia a usare Data Wrangler.

  1. In Amazon SageMaker Studio Classic, dal menu Home ( Black square icon representing a placeholder or empty image. ) nel pannello di sinistra accedi al nodo Dati, quindi scegli Data Wrangler. Si apre la pagina di destinazione di Data Wrangler in Studio Classic.

  2. Scegli il pulsante + Importa dati per creare un nuovo flusso.

  3. Nella pagina del flusso, dalla scheda Importa, scegli Amazon S3, accedi al tuo bucket Amazon S3, trova il tuo set di dati, quindi scegli Importa.

  4. Dopo aver importato i dati, nel grafico di flusso nella scheda Flusso di dati, scegli il segno + a destra del nodo Tipi di dati.

  5. Scegli Aggiungi analisi.

  6. Nella pagina Crea analisi, scegli Report di distorsione per il Tipo di analisi.

  7. Configura il report di distorsione fornendo il Nome del report, la colonna di previsione e, se si tratta di un valore o di una soglia, la colonna da analizzare per individuare eventuali distorsioni (il facet) e la specifica del valore o della soglia.

  8. Continua a configurare il report di distorsione scegliendo le metriche di distorsione.

    Scegli la metrica di distorsione.
  9. Scegli Verifica eventuali distorsioni per generare e visualizzare il report sulle distorsioni. Scorrere per visualizzare tutti i report.

    Genera e visualizza il report di distorsione.
  10. Scegli il cursore a destra della descrizione di ogni metrica di distorsione per visualizzare la documentazione che può aiutarti a interpretare il significato dei valori delle metriche.

  11. Per visualizzare un riepilogo della tabella dei valori delle metriche di distorsione, scegli l'interruttore Tabella. Per salvare il report, scegli Salva nell'angolo in basso a destra della pagina. Puoi vedere il report sul grafico di flusso nella scheda Flusso di dati. Fai doppio clic sul report per aprirlo.