Valutazione di un modello di fondazione per la generazione di testo in Studio
Nota
Foundation Model Evaluations (FMEval) è in versione anteprima per Amazon SageMaker Clarify ed è soggetto a modifiche.
Importante
Per utilizzare SageMaker Clarify Foundation Model Evaluations, è necessario eseguire l’aggiornamento alla nuova esperienza Studio. A partire dal 30 novembre 2023, la precedente esperienza Amazon SageMaker Studio ha cambiato nome in Amazon SageMaker Studio Classic. La funzionalità di valutazione dei modelli di fondazione può essere utilizzata solo nell’esperienza aggiornata. Per informazioni su come aggiornare Studio, consulta Migrazione da Amazon SageMaker Studio Classic. Per informazioni sull’utilizzo dell’applicazione Studio Classic, consulta Amazon SageMaker Studio Classic.
Amazon SageMaker JumpStart include integrazioni con SageMaker Clarify Foundation Model Evaluations (FMEval) in Studio. Se un modello JumpStart dispone di funzionalità di valutazione integrate, puoi scegliere Valuta nell’angolo in alto a destra della pagina dei dettagli del modello nell’interfaccia utente di JumpStart Studio. Per ulteriori informazioni sulla navigazione nell’interfaccia utente di JumpStart Studio, consulta Apertura e utilizzo di JumpStart.
Utilizza Amazon SageMaker JumpStart per valutare modelli di fondazione basati su testo con FMEval. Puoi utilizzare queste valutazioni dei modelli per confrontare le metriche di qualità e responsabilità dei modelli per un modello, tra due modelli o tra diverse versioni dello stesso modello, per semplificare la quantificazione dei rischi del modello. FMEval è in grado di valutare modelli basati su testo che effettuano le seguenti attività:
-
Generazione aperta: la produzione di risposte umane naturali a un testo privo di una struttura predefinita.
-
Sintesi testuale: generazione di una sintesi concisa e condensata che mantiene il significato e le informazioni chiave contenuti in un testo più esteso.
-
Risposta a domande: generazione di una risposta in linguaggio naturale a una domanda.
-
Classificazione: assegnazione di una classe, ad esempio
positiveanzichénegative, a un passaggio di testo in base al suo contenuto.
È possibile utilizzare FMEval per valutare automaticamente le risposte del modello sulla base di benchmark specifici. Le risposte del modello possono anche essere valutate in base ai propri criteri, introducendo set di dati personali. FMEval fornisce un’interfaccia utente (UI) che guida l’utente attraverso l’installazione e la configurazione di un processo di valutazione. Puoi anche utilizzare la libreria FMEval all’interno del tuo codice.
Ogni valutazione richiede una quota per due istanze:
-
Istanza di hosting: un’istanza che ospita e implementa un LLM.
-
Istanza di valutazione: un’istanza utilizzata per richiedere ed eseguire una valutazione di un LLM sull’istanza di hosting.
Se il tuo LLM è già implementato, indice l’’endpoint e SageMaker AI utilizzerà l’istanza di hosting per ospitare e implementare il modello LLM.
Se stai valutando un modello JumpStart che non è ancora stato implementato sul tuo account, FMEval crea un’istanza di hosting temporanea nell’account e la mantiene implementata solo per la durata della valutazione. FMEval utilizza l’istanza predefinita raccomandata da JumpStart per il modello LLM scelto come istanza di hosting. Per questa istanza raccomandata è necessario disporre di una quota sufficiente.
Ogni valutazione utilizza anche un’istanza di valutazione per fornire prompt e assegnare un punteggio alle risposte del modello LLM. È inoltre necessario disporre di una quota e di una memoria sufficienti per eseguire gli algoritmi di valutazione. I requisiti di quota e memoria dell’istanza di valutazione sono generalmente inferiori a quelli richiesti per un’istanza di hosting. Si consiglia di selezionare l’istanza ml.m5.2xlarge. Per ulteriori informazioni su quota e memoria, consulta Risoluzione degli errori durante la creazione di un processo di valutazione del modello in Amazon SageMaker AI.
Le valutazioni automatiche possono essere utilizzate per assegnare un punteggio ai LLM nelle seguenti dimensioni:
-
Precisione: per la sintesi testuale, la risposta alle domande e la classificazione del testo
-
Robustezza semantica: per attività di generazione aperta, sintesi testuale e classificazione del testo
-
Conoscenza effettiva: per la generazione aperta
-
Stereotipia dei prompt: per la generazione aperta
-
Tossicità: per la generazione aperta, la sintesi testuale e la risposta alle domande
È inoltre possibile utilizzare le valutazioni umane per valutare manualmente le risposte dei modelli. L’interfaccia di FMEval guida l’utente attraverso un flusso di lavoro che prevede la selezione di uno o più modelli, il provisioning di risorse e la scrittura di istruzioni, oltre al contatto, per la forza lavoro umana. Una volta completata la valutazione umana, i risultati vengono visualizzati in FMEval.
È possibile accedere alla valutazione del modello tramite la pagina di destinazione di JumpStart in Studio selezionando un modello da valutare e quindi scegliendo Valuta. Tieni presente che non tutti i modelli JumpStart dispongono di funzionalità di valutazione. Per ulteriori informazioni su come configurare, effettuare il provisioning ed eseguire FMEval, consulta Cosa sono le valutazioni dei modelli di fondazione?