Guida alla compatibilità di formato dei dati
Questa guida descrive i tipi di formato dei dati compatibili con i processi di elaborazione di SageMaker Clarify. I tipi di formato di dati supportati includono le estensioni dei file, la struttura dei dati e i requisiti o le restrizioni specifici per i set di dati tabulari, di immagini e di serie temporali. La guida mostra anche come verificare se il set di dati è conforme a questi requisiti.
A un livello elevato, il processo di elaborazione di SageMaker Clarify segue il modello di input-elaborazione-output per calcolare i parametri di bias e le attribuzioni delle funzionalità. Per i dettagli, consulta gli esempi seguenti.
L'input del processo di elaborazione di SageMaker Clarify è costituito da quanto segue:
-
Il set di dati da analizzare.
-
La configurazione dell'analisi Per ulteriori informazioni su come configurare un’analisi, consulta File di configurazione dell’analisi.
Durante la fase di elaborazione, SageMaker Clarify calcola i parametri di bias e le attribuzioni delle funzionalità. Il processo di elaborazione SageMaker Clarify completa le seguenti fasi nel back-end:
-
Il processo di elaborazione SageMaker Clarify analizza la configurazione dell'analisi e carica il set di dati.
-
Per calcolare i parametri di bias e le attribuzioni delle funzionalità post-addestramento, il processo richiede previsioni basate sul modello. Il processo di elaborazione SageMaker Clarify serializza i dati e li invia come richiesta al modello che viene implementato su un endpoint di inferenza in tempo reale SageMaker AI. Successivamente, il processo di elaborazione SageMaker Clarify estrae le previsioni dalla risposta.
-
Il processo di elaborazione SageMaker Clarify esegue l'analisi dei bias e della spiegabilità, quindi produce i risultati.
Per ulteriori informazioni, consulta Come funzionano i processi di elaborazione di SageMaker Clarify.
Il parametro utilizzato per specificare il formato dei dati dipende da dove i dati vengono utilizzati nel flusso di elaborazione, come mostrato in seguito:
-
Per un set di dati di input, utilizza il parametro
dataset_typeper specificare il formato o il tipo MIME. -
Per una richiesta a un endpoint, utilizza il parametro
content_typeper specificare il formato. -
Per una risposta a un endpoint, utilizza il parametro
accept_typeper specificare il formato.
Il set di dati di input, la richiesta e la risposta da e verso l'endpoint non richiedono lo stesso formato. Ad esempio, è possibile utilizzare un set di dati Parquet con un payload di richiesta CSV e un payload di risposta JSON Lines, date le condizioni descritte in seguito.
-
L'analisi è configurata correttamente.
-
Il modello supporta i formati di richiesta e risposta.
Nota
Se content_type o accept_type non vengono forniti, il container SageMaker Clarify deduce content_type e accept_type