Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Utilizzo dei set di dati dei prompt e delle dimensioni di valutazione disponibili nei processi di valutazione del modello
Le sezioni seguenti forniscono una panoramica su come utilizzare i processi di valutazione del modello automatici e umani.
Attività di valutazione del modello
In un processo di valutazione del modello, per attività di valutazione si intende un’attività che il modello deve eseguire in base alle informazioni contenute nei prompt.
Puoi scegliere un tipo di attività per ogni processo di valutazione del modello. Per ulteriori informazioni su ciascun tipo di attività, consulta le sezioni seguenti. Ogni sezione include anche un elenco di set di dati integrati disponibili e delle metriche corrispondenti che possono essere utilizzati solo nei processi di valutazione automatica del modello.
Generazione aperta
La generazione aperta di testo è un’attività del modello di fondazione che genera risposte in linguaggio naturale a prompt privi di una struttura predefinita, come le query generiche a un chatbot. Per la generazione di testo aperto, Foundation Model FMEval Evaluations () può valutare il modello in base alle seguenti dimensioni.
-
Conoscenza fattuale: valuta quanto bene il modello codifica la conoscenza fattuale. FMEval può misurare il modello rispetto al proprio set di dati personalizzato o utilizzare un set di dati integrato basato sul set di dati open source. TREX
-
Robustezza semantica: valuta quanto cambia l'output del modello a seguito di piccole modifiche nell'input che preservano la semantica. FMEval misura come cambia l'output del modello a seguito di errori di battitura da tastiera, modifiche casuali alle lettere maiuscole e aggiunte o eliminazioni casuali di spazi bianchi.
-
Stereotipizzazione dei prompt: misura la probabilità che il modello includa bias nella risposta. Questi pregiudizi includono quelli relativi a razza, genere, orientamento sessuale, religione, età, nazionalità, disabilità, aspetto fisico e status socioeconomico. FMEval può misurare le risposte del modello rispetto al proprio set di dati personalizzato o utilizzare un set di dati integrato basato sul set di dati open source Challenge. CrowS-Pairs
-
Tossicità: valuta il testo utilizzando modelli di rilevamento della tossicità. FMEval verifica la presenza di riferimenti sessuali, commenti maleducati, irragionevoli, odiosi o aggressivi, parolacce, insulti, flirt, attacchi all'identità e minacce. FMEval può misurare il modello rispetto al proprio set di dati personalizzato o utilizzare set di dati integrati basati su, e set di dati. RealToxicityPromptsRealToxicityPromptsChallengingBOLD
RealToxicityPromptsChallenging è un sottoinsieme di RealToxicityPrompts, utilizzato per testare i limiti di un modello linguistico di grandi dimensioni (LLM). Identifica inoltre le aree vulnerabili alla generazione di LLMs testo tossico.
Puoi valutare il modello con i seguenti rilevatori di tossicità:
-
UnitaryAI Detoxify-unbiased
: un classificatore di testo multi-etichetta addestrato su Toxic Comment Classification Challenge e Jigsaw Unintended Bias in Toxicity Classification . Il modello fornisce 7punteggi per le seguenti classi: tossicità, tossicità grave, oscenità, minacce, insulti, riferimenti sessuali espliciti e attacchi all’identità. -
Toxigen-roberta
: un classificatore di testo basato su RoBERTa binario ottimizzato con fine-tuning sul set di dati ToxiGen. Il set di dati ToxiGen contiene frasi con tossicità sottile e implicita relative a gruppi minoritari.
-
Riepilogo del testo
La sintesi testuale viene utilizzata per attività quali la sintesi di notizie, documenti legali, articoli accademici, anteprime di contenuti ed elaborazione dei contenuti. Quanto segue può influire sulla qualità delle risposte: ambiguità, coerenza, pregiudizi, fluidità del testo utilizzato per addestrare il modello di base e perdita di informazioni, accuratezza, pertinenza o mancata corrispondenza del contesto. FMEval può valutare il modello rispetto al proprio set di dati personalizzato o utilizzare set di dati integrati basati su set di dati e. Government Report
DatasetGigaword
-
Accuratezza: un punteggio numerico che indica la somiglianza della sintesi con una sintesi di riferimento accettata come standard di riferimento. Un punteggio numerico elevato indica che la sintesi è di alta qualità. Un punteggio numerico basso indica una sintesi scadente. Le metriche seguenti vengono utilizzate per valutare l’accuratezza di una sintesi:
-
ROUGE-N
: calcola le sovrapposizioni N-gram tra la sintesi di riferimento e quella del modello. -
Meteor
: calcola la sovrapposizione delle parole tra la sintesi di riferimento e quella del modello, tenendo conto anche della riformulazione. -
BERTScore
— Calcola e confronta gli incorporamenti delle frasi per il riepilogo e il riferimento. FMEval utilizza i modelli roberta-large-mnli o microsoft/ deberta-xlarge-mnli per calcolare gli incorporamenti.
-
-
Tossicità: punteggi per le sintesi generate calcolate utilizzando un modello di rilevatore di tossicità. Per ulteriori informazioni, consulta la sezione Tossicità nella precedente attività Generazione aperta.
-
Robustezza semantica: misura quanto cambia la qualità della sintesi del testo del modello dopo aver apportato modifiche minori nell’input che preservano la semantica. Esempi di queste modifiche includono errori di battitura, modifiche casuali in lettere maiuscole e aggiunte o eliminazioni casuali di spazi vuoti. La robustezza semantica utilizza la differenza assoluta di accuratezza tra una sintesi del testo imperturbata e una perturbata. L’algoritmo di accuratezza utilizza le metriche ROUGE-N
, Meteor e BERTScore , come descritto in precedenza in questa sezione.
Risposta alle domande
La risposta alle domande viene utilizzata per attività quali la generazione di risposte automatiche dall'help desk, il recupero di informazioni e l'e-learning. FMEval può valutare il modello rispetto al proprio set di dati personalizzato o utilizzare set di dati integrati basati su, e set di dati. BoolQTriviaQANatural Questions
-
Accuratezza: un punteggio medio che confronta la risposta generata con le coppie di domande e risposte fornite nei riferimenti. La media del punteggio viene calcolata in base ai seguenti metodi:
-
Corrispondenza esatta: a una corrispondenza esatta viene assegnato un punteggio binario di
1, altrimenti viene assegnato0. -
Corrispondenza quasi esatta: a una corrispondenza viene assegnato un punteggio binario di
1dopo aver rimosso (normalizzazione) punteggiatura e articoli grammaticali (ad esempio, il, uno). -
F1 sulle parole: il punteggio F1, o media armonica di precisione e richiamo tra la risposta normalizzata e il riferimento. Il punteggio F1 è uguale a due volte la precisione moltiplicato per il richiamo diviso per la somma della precisione (P) e del richiamo (R), o F1 = (2*P*R)/(P+R).
Nel calcolo precedente, la precisione è definita come il numero di veri positivi (TP) diviso per la somma dei veri positivi e dei falsi positivi (FP), o P = (TP)/(TP+FP).
Richiamo è definito come il numero di veri positivi diviso per la somma dei veri positivi e dei falsi negativi (FN), o R = (TP)/(TP+FN).
Un punteggio F1 sulle parole più alto indica risposte di qualità superiore.
-
-
Robustezza semantica: misura quanto cambia la qualità della sintesi del testo del modello dopo aver apportato modifiche minori nell’input che preservano la semantica. Esempi di queste modifiche includono errori di battitura da tastiera, conversione imprecisa di numeri in parole, modifiche casuali in lettere maiuscole e aggiunte o eliminazioni casuali di spazi vuoti. La robustezza semantica utilizza la differenza assoluta di accuratezza tra una sintesi del testo imperturbata e una perturbata. L’accuratezza viene misurata utilizzando la corrispondenza esatta, la corrispondenza quasi esatta e F1 sulle parole, come descritto in precedenza.
-
Tossicità: i punteggi valutano le risposte generate utilizzando un modello di rilevatore di tossicità. Per ulteriori informazioni, consulta la sezione Tossicità nella precedente attività Generazione aperta.
Classificazione
La classificazione viene utilizzata per suddividere il testo in categorie predefinite. Le applicazioni che utilizzano la classificazione del testo includono i suggerimenti dei contenuti, il rilevamento dello spam, l'identificazione della lingua e l'analisi dei trend sui social media. Dati squilibrati, ambigui e rumorosi, distorsioni nell'etichettatura sono alcuni problemi che possono causare errori nella classificazione. FMEval valuta il modello rispetto a un set di dati integrato basato sul set di dati, and/or rispetto ai set di Women’s ECommerce Clothing Reviews
-
Accuratezza: un punteggio che confronta la classe prevista con la relativa etichetta. L’accuratezza viene misurata utilizzando le seguenti metriche:
-
Accuratezza di classificazione: un punteggio binario
1indica se l’etichetta prevista è uguale all’etichetta vera, un punteggio binario0indica il contrario. -
Precisione: il rapporto tra i veri positivi e tutti i positivi, calcolato sull’intero set di dati. La precisione è una misura appropriata quando è importante ridurre i falsi positivi. Il punteggio per ogni punto dati può essere aggregato utilizzando i seguenti valori per il parametro
multiclass_average_strategy. Ogni parametro è elencato nell’esempio seguente. -
Richiamo: il rapporto tra i veri positivi e la somma dei veri positivi e dei falsi negativi, calcolato sull’intero set di dati. Richiamo è adatto nei casi in cui è importante ridurre i falsi negativi. I punteggi per ogni punto dati possono essere aggregati utilizzando i seguenti valori per il parametro
multiclass_average_strategy.-
micro(impostazione predefinita): la somma dei veri positivi divisa per la somma dei veri positivi e dei falsi negativi per tutte le classi. Questo tipo di aggregazione fornisce una misura dell’accuratezza predittiva complessiva del modello, considerando tutte le classi allo stesso modo. Ad esempio, questa aggregazione può valutare la capacità del modello di classificare correttamente i pazienti affetti da qualsiasi malattia, comprese le malattie rare, perché attribuisce lo stesso peso a tutte le classi. -
macro: la somma dei valori di richiamo calcolati per ogni classe divisa per il numero di classi. Questo tipo di aggregazione fornisce una misura dell’accuratezza predittiva del modello per ogni classe, attribuendo lo stesso peso a ogni classe. Ad esempio, questa aggregazione può valutare la capacità del modello di prevedere tutte le malattie, indipendentemente dalla prevalenza o dalla rarità di ciascuna patologia. -
samples(solo classificazione multiclasse): il rapporto tra la somma dei veri positivi su tutti i campioni e la somma dei veri positivi e dei falsi negativi per tutti i campioni. Per la classificazione multiclasse, un campione è costituito da una serie di risposte previste per ogni classe. Questo tipo di aggregazione fornisce una misura granulare del richiamo di ciascun campione per problemi multiclasse. Ad esempio, poiché l’aggregazione per campioni tratta ogni campione allo stesso modo, può valutare la capacità del modello di prevedere la diagnosi corretta per un paziente affetto da una malattia rara, riducendo allo stesso tempo al minimo i falsi negativi. -
weighted: il peso di una classe moltiplicato per il richiamo della stessa classe, sommato per tutte le classi. Questo tipo di aggregazione fornisce una misura del richiamo complessivo, tenendo conto delle diverse importanza tra le classi. Ad esempio, questa aggregazione può valutare la capacità del modello di prevedere una diagnosi corretta per un paziente e attribuire un peso maggiore alle malattie potenzialmente letali. -
binary: il richiamo calcolato per la classe specificata dal valorepos_label. Questo tipo di aggregazione ignora la classe non specificata e fornisce una accuratezza predittiva complessiva per una singola classe. Ad esempio, questa aggregazione può valutare la capacità del modello di sottoporre a screening una popolazione per una specifica malattia altamente contagiosa e potenzialmente letale. -
none: il richiamo calcolato per ogni classe. Il richiamo specifico per la classe può aiutarti a risolvere gli squilibri di classe nei dati quando la penalità in caso di errore varia significativamente tra le classi. Ad esempio, questa aggregazione può valutare in che misura il modello è in grado di identificare tutti i pazienti che potrebbero avere una specifica malattia.
-
-
Accuratezza di classificazione bilanciata (BCA): la somma del richiamo e della percentuale di veri negativi divisa per
2per la classificazione binaria. Il tasso di veri negativi è il numero di veri negativi diviso per la somma dei veri negativi e dei falsi positivi. Per la classificazione multiclasse, BCA viene calcolato come la somma dei valori di richiamo per ciascuna classe divisa per il numero di classi. La BCA può aiutare quando la penalità per la previsione di falsi positivi e falsi negativi è elevata. Ad esempio, la BCA può valutare la capacità del modello di prevedere una serie di malattie letali altamente contagiose con trattamenti intrusivi.
-
-
Robustezza semantica: valuta quanto cambia l'output del modello a seguito di piccole modifiche nell'input che preservano la semantica. FMEval misura l'output del modello come risultato di errori di battitura da tastiera, modifiche casuali alle lettere maiuscole e aggiunte o eliminazioni casuali di spazi bianchi. La robustezza semantica misura la differenza assoluta di accuratezza tra una sintesi del testo imperturbata e una perturbata.
Tipi di valutazioni dei modelli di fondazione
Le sezioni seguenti forniscono dettagli sui tipi di valutazioni umane e algoritmiche per il modello di fondazione.
Valutazioni umane
Per la valutazione umana del modello, devi definire le metriche e i tipi di metrica associati. Per valutare più di un modello, puoi utilizzare un meccanismo di valutazione comparativo o individuale. Per valutare un modello, devi utilizzare un meccanismo di valutazione individuale. I meccanismi di valutazione seguenti possono essere applicati a qualsiasi attività relativa al testo:
-
(Comparativo) Scala Likert - Confronto: un valutatore umano indicherà la propria preferenza tra due risposte su una scala Likert a cinque punti in base alle tue istruzioni. Nel report finale, i risultati verranno visualizzati sotto forma di istogramma delle valutazioni in base all’intensità delle preferenze sull’intero set di dati. Definisci i punti importanti della scala a cinque punti nelle istruzioni, in modo che i valutatori sappiano come valutare le risposte in base alle tue aspettative.
-
(Comparativo) Pulsanti di scelta: consentono a un valutatore umano di indicare una risposta preferita rispetto a un’altra utilizzando i pulsanti di opzione, secondo le tue istruzioni. I risultati del report finale verranno visualizzati come percentuale delle risposte preferite dai lavoratori per ciascun modello. Spiega chiaramente il tuo metodo di valutazione nelle istruzioni.
-
(Comparativo) Classificazione ordinale: consente a un valutatore umano di classificare, secondo le tue istruzioni, le risposte preferite a un prompt in ordine di preferenza a partire da 1. Nel report finale, i risultati vengono visualizzati sotto forma di istogramma delle classificazioni fornite dai valutatori sull’intero set di dati. Assicurati di definire cosa significa una classificazione pari a
1nelle tue istruzioni. -
(Individuale) Pollice su/giù: consente a un valutatore umano di valutare ogni risposta di un modello come accettabile/inaccettabile in base alle tue istruzioni. Nel report finale, i risultati mostrano una percentuale del numero totale di valutazioni con il pollice su condotte dai valutatori per ciascun modello. Puoi utilizzare questo metodo di valutazione per valutare uno o più modelli. Se lo utilizzi in una valutazione che contiene due modelli, l’interfaccia utente offre al team di lavoro l’opzione pollice su o giù per ciascuna risposta del modello. Il report finale mostrerà i risultati aggregati per ogni singolo modello. Definisci nelle istruzioni quali sono le risposte accettabili per il team di lavoro.
-
(Individuale) Scala Likert - Individuale: consente a un valutatore umano di indicare in che misura approva la risposta del modello, in base alle tue istruzioni, utilizzando una scala Likert a cinque punti. Nel report finale, i risultati mostrano un istogramma delle valutazioni a cinque punti espresse dai valutatori sull’intero set di dati. Puoi utilizzare questo metodo per valutazioni con uno o più modelli. Se selezioni questo metodo per una valutazione che contiene più di un modello, al team di lavoro verrà presentata una scala Likert a cinque punti per ogni risposta del modello. Il report finale mostrerà i risultati aggregati per ogni singolo modello. Definisci i punti importanti della scala a cinque punti nelle istruzioni, in modo che i valutatori sappiano come valutare le risposte in base alle tue aspettative.
Valutazioni automatiche
Puoi scegliere di utilizzare le valutazioni automatiche per sfruttare i set di dati e gli algoritmi integrati oppure il tuo set di dati dei prompt specifico per il tuo caso d’uso. I set di dati integrati variano per ogni attività e sono elencati nelle sezioni seguenti. Per un riepilogo delle attività, che include le metriche e i set di dati associati, consulta la tabella nella sezione seguente Valutazione di riepilogo dei modelli di fondazione.
Riepilogo delle valutazioni del modello di fondazione
La tabella seguente riepiloga tutte le attività di valutazione, le metriche e i set di dati integrati per le valutazioni umane e automatiche.
| Operazione | Valutazioni umane | Metriche umane | Valutazioni automatiche | Metriche automatiche | Set di dati integrati automatici |
|---|---|---|---|---|---|
|
Generazione aperta |
Fluidità, Coerenza, Tossicità, Accuratezza, Uniformità, Pertinenza, Definita dall’utente |
Percentuale di preferenza, Intensità di preferenza, Classificazione di preferenza, Percentuale di approvazione, Intensità di approvazione |
Conoscenze fattuali |
TREX |
|
|
Robustezza semantica |
TREX |
||||
|
BOLD |
|||||
|
WikiText |
|||||
|
Stereotipizzazione dei prompt |
CrowS-Pairs |
||||
|
Tossicità |
RealToxicityPrompts |
||||
|
BOLD |
|||||
|
Riepilogo del testo |
Accuratezza |
ROUGE-N |
Government Report Dataset |
||
|
BERTScore |
Gigaword |
||||
|
Government Report Dataset |
|||||
|
Gigaword |
|||||
|
Government Report Dataset |
|||||
|
Gigaword |
|||||
|
Risposta alle domande |
Accuratezza |
Corrispondenza esatta |
BoolQ |
||
|
Corrispondenza quasi esatta |
NaturalQuestions |
||||
|
F1 sulle parole |
TriviaQA |
||||
|
Robustezza semantica |
BoolQ |
||||
|
NaturalQuestions |
|||||
|
TriviaQA |
|||||
|
Tossicità |
BoolQ |
||||
|
NaturalQuestions |
|||||
|
TriviaQA |
|||||
|
Classificazione del testo |
Accuratezza |
Accuratezza della classificazione |
Women's Ecommerce Clothing Reviews |
||
|
Precisione |
Women's Ecommerce Clothing Reviews |
||||
|
Recupero |
Women's Ecommerce Clothing Reviews |
||||
|
Accuratezza di classificazione bilanciata |
Women's Ecommerce Clothing Reviews |
||||
|
Robustezza semantica |
Women's Ecommerce Clothing Reviews |