Attività di valutazione del modello Aggiornamento dei parametri di inferenza Valutazione automatica del modello Processi di valutazione del modello che utilizzano valutatori umani

Cosa sono le valutazioni dei modelli di fondazione?

FMEval può aiutarti a quantificare i rischi dei modelli, come contenuti imprecisi, tossici o distorti. La valutazione del tuo LLM ti aiuta a rispettare le linee guida internazionali sull’IA generativa responsabile, come lo standard ISO 42001 per i sistemi di gestione dell’intelligenza artificiale e il NIST AI Risk Management Framework.

Le sezioni seguenti offrono un’ampia panoramica sui metodi supportati per creare valutazioni dei modelli, visualizzare i risultati di un processo di valutazione del modello e analizzare i risultati.

Attività di valutazione del modello

In un processo di valutazione del modello, un'attività di valutazione è un'attività che si desidera che il modello esegua in base alle informazioni contenute nei prompt. Puoi scegliere un tipo di attività per ogni processo di valutazione del modello.

Tipi di attività supportati nei processi di valutazione del modello

Generazione aperta: la produzione di risposte umane naturali a un testo privo di una struttura predefinita.
Sintesi testuale: generazione di una sintesi concisa e condensata che conserva il significato e le informazioni chiave contenuti in un testo più esteso.
Risposta alle domande: generazione di una risposta pertinente e accurata a un prompt.
Classificazione: assegnazione di una categoria, ad esempio un’etichetta o un punteggio, al testo in base al suo contenuto.
Personalizzato: consente di definire dimensioni di valutazione personalizzate per il processo di valutazione del modello.

A ogni tipo di attività sono associate metriche specifiche che puoi utilizzare nei processi di valutazione del modello automatici. Per ulteriori informazioni sulle metriche associate ai processi di valutazione automatica del modello e ai processi di valutazione del modello che utilizzano lavoratori umani, consulta Utilizzo dei set di dati dei prompt e delle dimensioni di valutazione disponibili nei processi di valutazione del modello.

Aggiornamento dei parametri di inferenza

I parametri di inferenza sono un modo per influire sull’output di un modello senza dover riaddestrare o eseguire il fine-tuning del modello.

Nel processo di valutazione automatica del modello, puoi modificare i nuovi token Temperature, Top P e Max del modello.

Temperatura

Modifica il grado di casualità nelle risposte del modello. Abbassa la temperatura predefinita per diminuire il grado di casualità e la aumenta per incrementarlo.

Top P

Durante l’inferenza, il modello genera testo e sceglie da un elenco di parole per inserire la parola successiva. L’aggiornamento di Top P modifica il numero di parole nell’elenco in base a una percentuale. Diminuendo Top P si ottengono campioni più deterministici, mentre un valore più alto produce una maggiore variabilità e creatività nel testo generato.

Numero massimo di nuovi token

Modifica la lunghezza della risposta che il modello può fornire.

Puoi aggiornare i parametri di inferenza in Studio dopo aver aggiunto il modello al processo di valutazione del modello.

Processi di valutazione del modello automatica

I processi di valutazione automatica del modello utilizzano metriche basate su benchmark per misurare le risposte tossiche, dannose o comunque inadeguate per i clienti. Le risposte dei modelli vengono valutate utilizzando set di dati integrati specifici per l’attività oppure puoi specificare un set di dati dei prompt personalizzato.

Per creare un processo di valutazione automatica del modello, puoi utilizzare Studio o la libreria fmeval. I processi di valutazione automatica del modello supportano l’utilizzo di un singolo modello. In Studio, puoi utilizzare un JumpStart modello o utilizzare un JumpStart modello che hai precedentemente distribuito su un endpoint.

In alternativa, puoi implementare la libreria fmeval nella tua codebase e personalizzare il processo di valutazione del modello per i tuoi casi d’uso.

Per comprendere meglio i risultati, utilizza il report generato. Il report include visualizzazioni ed esempi. Sono visualizzati anche i risultati salvati nel bucket Amazon S3 specificato durante la creazione del processo. Per ulteriori informazioni sulla struttura dei risultati, consulta Informazioni sui risultati di un processo di valutazione automatica.

Per utilizzare un modello non disponibile pubblicamente in JumpStart , è necessario utilizzare la fmeval libreria per eseguire il processo di valutazione automatica del modello. Per un elenco di JumpStart modelli, vedereModelli di fondazione disponibili.

Modelli di prompt

Per garantire che il JumpStart modello selezionato risponda correttamente a tutti i prompt, SageMaker Clarify amplia automaticamente i prompt di input in un formato che funzioni meglio per il modello e le dimensioni di valutazione selezionate. Per visualizzare il modello di prompt predefinito fornito da Clarify, scegli Modello di prompt nella scheda per le dimensioni di valutazione. Se selezioni, ad esempio, il tipo di attività Sintesi testuale nell’interfaccia utente, Clarify visualizza per impostazione predefinita una scheda per ciascuna delle dimensioni di valutazione associate, in questo caso Accuratezza, Tossicità e Robustezza semantica. In queste schede, puoi configurare i set di dati e i modelli di prompt utilizzati da Clarify per misurare le dimensioni di valutazione. Puoi anche rimuovere tutte le dimensioni che non intendi utilizzare.

Modelli di prompt predefiniti

Clarify fornisce una selezione di set di dati che puoi utilizzare per misurare ogni dimensione di valutazione. Puoi scegliere di utilizzare uno o più di questi set di dati oppure fornire un set di dati personalizzato. Se utilizzi i set di dati forniti da Clarify, puoi anche utilizzare i modelli di prompt inseriti da Clarify come predefiniti. Questi prompt predefiniti derivano dall’analisi del formato di risposta in ogni set di dati e dalla determinazione del potenziamento delle query necessario per ottenere lo stesso formato di risposta.

Il modello di prompt fornito da Clarify dipende anche dal modello selezionato. Puoi scegliere un modello ottimizzato con fine-tuning che prevede istruzioni in punti specifici del prompt. Ad esempio, scegliendo il modello meta-textgenerationneuron-llama-2-7b, il tipo di task Text Summarization e il Gigaword set di dati, viene visualizzato un modello di prompt predefinito del seguente:


Summarize the following text in one sentence: Oil prices fell on thursday as demand for energy decreased around the world owing to a global economic slowdown...

La scelta del modello di chat llama meta-textgenerationneuron-llama-2-7b-f, invece, mostra il seguente modello di prompt predefinito:


[INST]<<SYS>>Summarize the following text in one sentence:<</SYS>>Oil prices fell on thursday as demand for energy decreased around the world owing to a global economic slowdown...[/INST]

Modelli di prompt personalizzati

Nella finestra di dialogo del modello di prompt, è possibile attivare o disattivare il supporto automatico per la creazione di modelli di prompt fornito da Clarify. SageMaker Se disattivi la creazione automatica dei modelli di prompt, Clarify fornisce il prompt predefinito (come baseline per tutti i set di dati all’interno della stessa dimensione di valutazione) che puoi modificare. Ad esempio, se il modello di prompt predefinito include l’istruzione Riassumi quanto segue in una frase, puoi cambiarlo in Riassumi quanto segue in meno di 100 parole o qualsiasi altra istruzione che intendi utilizzare.

Inoltre, se modifichi un prompt per una dimensione di valutazione, lo stesso prompt viene applicato a tutti i set di dati che utilizzano la stessa dimensione. Quindi, se scegli di applicare il prompt Riassumi il testo seguente in 17 frasi al set di dati Gigaword per misurare la tossicità, la stessa istruzione viene utilizzata per lo stesso scopo nel set di dati Government report. Se si desidera utilizzare un prompt diverso per un set di dati diverso (utilizzando lo stesso tipo di attività e la stessa dimensione di valutazione), è possibile utilizzare i pacchetti python forniti da. FMEval Per informazioni dettagliate, vedi Personalizzazione del flusso di lavoro con la libreria fmeval.

Esempio Esempio di modello di prompt aggiornato con Modello di prompt.

Immagina uno scenario semplice con un set di dati di base composto da solo due prompt, che desideri valutare con meta-textgenerationneuron-llama-2-7b-f.


{
	"model_input": "Is himalaya the highest mountain in the world?",
    "target_output": "False, Mt. Everest is the highest mountain in the world",
    "category": "Geography"
},
{
    "model_input": "Is Olympia the capital of Washington?",
    "target_output": "True",
    "category": "Capitals"
}

Poiché i prompt sono coppie domanda-risposta, scegli il tipo di attività Risposta alle domande.

Scegliendo il modello Prompt in Studio, potete vedere come SageMaker Clarify formatterà i prompt in modo che soddisfino i requisiti del modello. meta-textgenerationneuron-llama-2-7b-f JumpStart


[INST]<<SYS>>Respond to the following question. Valid answers are "True" or "False".<<SYS>>Is himalaya the highest mountain in the world?[/INST]

Per questo modello, SageMaker Clarify integrerà i prompt in modo da contenere il formato corretto dei prompt aggiungendo i tag and. [INST] <<SYS>> Potenzia inoltre la richiesta iniziale aggiungendo Respond to the following question. Valid answers are "True" or "False". per aiutare il modello a rispondere meglio.

Il testo fornito da SageMaker Clarify potrebbe non essere adatto al tuo caso d'uso. Per disattivare i modelli di prompt predefiniti, imposta l’interruttore Modelli di prompt predefiniti del set di dati su Disattivato.

Puoi modificare il modello di prompt per adattarlo al tuo caso d’uso. Ad esempio, è possibile richiedere una risposta breve anziché un formato di True/False risposta, come illustrato nella riga seguente:


[INST]<<SYS>>Respond to the following question with a short response.<<SYS>>Is himalaya the highest mountain in the world?[/INST]

Ora tutti i set di dati dei prompt integrati o personalizzati nella dimensione di valutazione specificata utilizzeranno il modello di prompt specificato.

Processi di valutazione del modello che utilizzano lavoratori umani

Puoi anche impiegare lavoratori umani per valutare manualmente le risposte del modello per dimensioni più soggettive, come la utilità o lo stile. Per creare un processo di valutazione del modello con lavoratori umani, devi utilizzare Studio.

In un lavoro di valutazione di modelli che utilizza lavoratori umani, è possibile confrontare le risposte di un massimo di due JumpStart modelli. Facoltativamente, puoi anche specificare le risposte da modelli esterni a. AWS Tutti i processi di valutazione del modello che utilizzano lavoratori umani richiedono la creazione di un set di dati dei prompt personalizzato e l’archiviazione in Amazon S3. Per ulteriori informazioni su come creare i dati di un prompt personalizzato, consulta Creazione di un processo di valutazione del modello che utilizza lavoratori umani.

In Studio, puoi definire i criteri utilizzati dalla forza lavoro umana per valutare le risposte dei modelli. Puoi anche documentare le istruzioni di valutazione utilizzando un modello disponibile in Studio. Inoltre, puoi creare un team di lavoro in Studio. Il team di lavoro è composto da persone che vuoi che partecipino al tuo processo di valutazione del modello.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Valutazione dei modelli di fondazione

Nozioni di base