Guida alla compatibilità di formato dei dati - Amazon SageMaker AI

Guida alla compatibilità di formato dei dati

Questa guida descrive i tipi di formato dei dati compatibili con i processi di elaborazione di SageMaker Clarify. I tipi di formato di dati supportati includono le estensioni dei file, la struttura dei dati e i requisiti o le restrizioni specifici per i set di dati tabulari, di immagini e di serie temporali. La guida mostra anche come verificare se il set di dati è conforme a questi requisiti.

A un livello elevato, il processo di elaborazione di SageMaker Clarify segue il modello di input-elaborazione-output per calcolare i parametri di bias e le attribuzioni delle funzionalità. Per i dettagli, consulta gli esempi seguenti.

L'input del processo di elaborazione di SageMaker Clarify è costituito da quanto segue:

Durante la fase di elaborazione, SageMaker Clarify calcola i parametri di bias e le attribuzioni delle funzionalità. Il processo di elaborazione SageMaker Clarify completa le seguenti fasi nel back-end:

  • Il processo di elaborazione SageMaker Clarify analizza la configurazione dell'analisi e carica il set di dati.

  • Per calcolare i parametri di bias e le attribuzioni delle funzionalità post-addestramento, il processo richiede previsioni basate sul modello. Il processo di elaborazione SageMaker Clarify serializza i dati e li invia come richiesta al modello che viene implementato su un endpoint di inferenza in tempo reale SageMaker AI. Successivamente, il processo di elaborazione SageMaker Clarify estrae le previsioni dalla risposta.

  • Il processo di elaborazione SageMaker Clarify esegue l'analisi dei bias e della spiegabilità, quindi produce i risultati.

Per ulteriori informazioni, consulta Come funzionano i processi di elaborazione di SageMaker Clarify.

Il parametro utilizzato per specificare il formato dei dati dipende da dove i dati vengono utilizzati nel flusso di elaborazione, come mostrato in seguito:

  • Per un set di dati di input, utilizza il parametro dataset_type per specificare il formato o il tipo MIME.

  • Per una richiesta a un endpoint, utilizza il parametro content_type per specificare il formato.

  • Per una risposta a un endpoint, utilizza il parametro accept_type per specificare il formato.

Il set di dati di input, la richiesta e la risposta da e verso l'endpoint non richiedono lo stesso formato. Ad esempio, è possibile utilizzare un set di dati Parquet con un payload di richiesta CSV e un payload di risposta JSON Lines, date le condizioni descritte in seguito.

  • L'analisi è configurata correttamente.

  • Il modello supporta i formati di richiesta e risposta.

Nota

Se content_type o accept_type non vengono forniti, il container SageMaker Clarify deduce content_type e accept_type