Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Nozioni di base sulle valutazioni del modello
Un modello linguistico di grandi dimensioni (LLM) è un modello di machine learning in grado di analizzare e generare testo in linguaggio naturale. Se desideri valutare un LLM, SageMaker AI offre le seguenti tre opzioni tra cui scegliere:
-
Configurazione di valutazioni manuali con Studio per una forza lavoro umana.
-
Valutazione del modello con un algoritmo in Studio.
-
Valutazione automatica del modello con un flusso di lavoro personalizzato con la libreria
fmeval.
Puoi utilizzare un algoritmo per valutare automaticamente il tuo modello di fondazione o chiedere a un team di lavoro umano di valutare le risposte dei modelli.
I team di lavoro umani possono valutare e confrontare fino a due modelli contemporaneamente utilizzando metriche che indicano la preferenza per una risposta rispetto a un’altra. Il flusso di lavoro, le metriche e le istruzioni per la valutazione umana possono essere personalizzati per adattarsi a un caso d’uso particolare. Le persone possono anche fornire una valutazione più elaborata rispetto a una valutazione algoritmica.
Puoi anche utilizzare un algoritmo con benchmark per valutare il tuo LLM, che consente di valutare rapidamente le risposte del modello in Studio. Studio offre un flusso di lavoro guidato per valutare le risposte di un JumpStart modello utilizzando metriche predefinite. Queste metriche sono specifiche per le attività di IA generativa. Questo flusso guidato utilizza set di dati integrati o personalizzati per valutare il tuo LLM.
In alternativa, puoi utilizzare la libreria fmeval per creare un flusso di lavoro più personalizzato rispetto a quello di Studio basato su valutazioni automatiche. Utilizzando il Python codice e la fmeval libreria, puoi valutare qualsiasi LLM basato su testo, inclusi i modelli creati all'esterno di. JumpStart
I seguenti argomenti forniscono una panoramica delle valutazioni dei modelli Foundation, un riepilogo dei flussi di lavoro automatici e umani di Foundation Model Evaluation (FMEval), come eseguirli e come visualizzare un rapporto di analisi dei risultati. L’argomento relativo alla valutazione automatica mostra come configurare ed eseguire sia una valutazione iniziale che una valutazione personalizzata.
Argomenti