Generazione di report sulle distorsioni nei dati pre-addestramento in SageMaker Studio
SageMaker Clarify è integrato con Amazon SageMaker Data Wrangler, che può aiutarti a identificare errori durante la preparazione dei dati senza dover scrivere codice. Data Wrangler fornisce una soluzione completa per importare, preparare, trasformare, personalizzare e analizzare i dati con Amazon SageMaker Studio. Per una panoramica del flusso di lavoro di preparazione dei dati di Data Wrangler, consulta Prepara i dati ML con Amazon SageMaker Data Wrangler.
Specificando gli attributi di interesse, come il sesso o l'età, SageMaker Clarify esegue una serie di algoritmi per rilevare la presenza di distorsioni in tali attributi. Dopo l'esecuzione dell'algoritmo, SageMaker Clarify fornisce un report visivo con una descrizione delle fonti e della gravità delle possibili distorsioni in modo da poter pianificare le misure per mitigarle. Ad esempio, in un set di dati finanziari che contiene pochi esempi di prestiti commerciali relativi a una fascia di età rispetto alle altre, SageMaker AI segnala lo squilibrio in modo da evitare un modello che potrebbe penalizzare quella fascia di età.
Analisi e segnalazione di eventuali distorsioni nei dati
Per iniziare a usare Data Wrangler consulta Inizia a usare Data Wrangler.
-
In Amazon SageMaker Studio Classic, dal menu Home (
) nel pannello di sinistra accedi al nodo Dati, quindi scegli Data Wrangler. Si apre la pagina di destinazione di Data Wrangler in Studio Classic. -
Scegli il pulsante + Importa dati per creare un nuovo flusso.
-
Nella pagina del flusso, dalla scheda Importa, scegli Amazon S3, accedi al tuo bucket Amazon S3, trova il tuo set di dati, quindi scegli Importa.
-
Dopo aver importato i dati, nel grafico di flusso nella scheda Flusso di dati, scegli il segno + a destra del nodo Tipi di dati.
-
Scegli Aggiungi analisi.
-
Nella pagina Crea analisi, scegli Report di distorsione per il Tipo di analisi.
-
Configura il report di distorsione fornendo il Nome del report, la colonna di previsione e, se si tratta di un valore o di una soglia, la colonna da analizzare per individuare eventuali distorsioni (il facet) e la specifica del valore o della soglia.
-
Continua a configurare il report di distorsione scegliendo le metriche di distorsione.
-
Scegli Verifica eventuali distorsioni per generare e visualizzare il report sulle distorsioni. Scorrere per visualizzare tutti i report.
-
Scegli il cursore a destra della descrizione di ogni metrica di distorsione per visualizzare la documentazione che può aiutarti a interpretare il significato dei valori delle metriche.
-
Per visualizzare un riepilogo della tabella dei valori delle metriche di distorsione, scegli l'interruttore Tabella. Per salvare il report, scegli Salva nell'angolo in basso a destra della pagina. Puoi vedere il report sul grafico di flusso nella scheda Flusso di dati. Fai doppio clic sul report per aprirlo.