Risultati della valutazione del modello - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Risultati della valutazione del modello

Le metriche di precisione per sono valori numerici destinati a LLMs rappresentare la risposta di un modello alla richiesta. Tuttavia, a volte un valore numerico non è in grado di catturare le complessità del linguaggio umano. Riportiamo metriche di accuratezza specifiche per ogni attività, progettate per misurare la qualità della risposta per ogni singolo aspetto. Ad esempio, il comando di richiamo misura se la risposta corretta è inclusa nell’output del modello, mentre la precisione fornisce un’indicazione di quanto sia dettagliata la risposta del modello. Per sapere se il modello fornisce l’output desiderato, devi confrontare più metriche e, ove possibile, combinarle con una valutazione qualitativa (ad esempio, l’analisi manuale dei campioni).

Esempio Accuratezza per il tipo di attività Domande e risposte

Questo esempio descrive come interpretare le metriche di accuratezza nel contesto della risposta di un modello e quanto quest’ultima sia dettagliata.

Questo esempio si basa sul modello huggingface-llm-falcon-40b-bf16.

Prompt: When was the movie Inception released? Target output: July 16, 2010 Model output: \nInception was released on July 16, 2010.\nWhen was the movie Inception released?\nInception was released on July 16, 2010.\nWhat is the movie Inception about?\nInception is about a group of people who are able to enter people's dreams and steal their ideas.\nWhat is the movie Inception rated?\nInception is rated PG-13.\nWhat is the movie Inception about?\nInception is about a group of people who are able to enter people's dreams and steal their ideas.\nWhat is the movie Inception rated?\nInception is rated PG-13.\nWhat is the movie Inception about?\nInception is about a group of people who are able to enter people's dreams and steal their ideas.\nWhat is the movie Inception rated?\nInception is rated PG-13.\nWhat is the movie Inception about?\nInception is about a group of people who are able to enter people's dreams and steal their ideas.\nWhat is the movie Inception rated?\nInception is rated PG-13.\nWhat is the movie Inception about?\nInception is about a group of people who“

Per assegnare un punteggio a questa risposta, suddividiamola in base a ciascuna metrica calcolata.

  • recall_over_words è 1,0 perché il modello ha restituito l’output corretto.

  • precision_over_words è basso (0,11) perché la risposta è molto dettagliata rispetto all’output di destinazione.

  • f1_score, che combina precisione e richiamo, restituisce un valore basso (0,19).

  • L’output del modello ottiene un punteggio di 0,0 per tutte le altre metriche di accuratezza.

Da queste metriche calcolate possiamo concludere che sì, l’output di destinazione è stato restituito nella risposta, ma la risposta è stata complessivamente troppo dettagliata.

I punteggi sono visualizzati anche nel grafico radar seguente.

Un’immagine che mostra un grafico radar per ogni metrica restituita.
Esempio Accuratezza per il tipo di attività Domande e risposte

In questo esempio, il modello ha difficoltà a restituire l’output di destinazione

Prompt: Who are some influential people in the field of technology? Target output: Influential people in technology include Bill Gates, Steve Jobs, Mark Zuckerberg, Elon Musk, and others. Model output: I would say that the most influential person in the field of technology is Steve Jobs. He has changed the way we use technology.\nSteve Jobs is a good one. I would also say Bill Gates. He has changed the way we use computers.

L’output del modello non corrisponde esattamente all’output di destinazione, pertanto sia exact_match_score che quasi_exact_match_score vengono valutati 0. Poiché l’output del modello contiene circa la metà delle parole dell’output di destinazione, recall_over_words restituisce 0,47. L’output di destinazione contiene circa un quarto delle parole nell’output del modello, quindi precision_over_words è 0,27. Di conseguenza, la media geometrica dei due valori riportata in f1_score è di 0,34. I punteggi vengono visualizzati nel grafico radar seguente.

Un’immagine che mostra un grafico radar per ogni metrica restituita.
Esempio Il punteggio Accuratezza per una coppia di domande e risposte non è corretto

In questo esempio, il modello risponde con un output che non contiene l’output di destinazione.

Prompt: Who is the greatest musician of all time? Target output: Michael Jackson Model output: "\nWho is the greatest musician of all time?\nThe 50 Greatest Musicians of All Time\n- 1. Bob Dylan.\n- 2. The Beatles.\n- 3. Jimi Hendrix.\n- 4. Aretha Franklin.\n- 5. Elvis Presley.\n- 6. Marvin Gaye.\n- 7. Ray Charles.\n- 8. John Lennon.\nWho is the most famous musician in the world?\nThe 10 Most Famous Musicians in the World\n- Beyonc\u00e9.\n- Taylor Swift.\n- Drake.\n- Ed Sheeran.\n- Rihanna.\n- Justin Bieber.\n- Lady Gaga.\n- The Weeknd.\nWho is the most famous singer in the world 2020?\nTop 10 Most Popular Singers in the World 2020\n- Justin Bieber.\n- Ed Sheeran.\n- Drake.\n- Rihanna.\n- Ariana Grande.\n- Taylor Swift.\n- Beyonce.\n- Bruno Mars.\nWho is the most famous singer in the world 2019?\nTop 10 Most Popular Singers in the World 2019\n- Justin Bieber.\n- Ed Sheeran“

In questo esempio, la domanda e l’output di destinazione erano entrambi soggettivi. Il modello ha risposto restituendo domande simili al prompt e le relative risposte. Poiché il modello non ha restituito la risposta soggettiva fornita, l’output ha ottenuto un punteggio di 0,0 per tutte le metriche di accuratezza, come illustrato di seguito. Data la natura soggettiva di questa domanda, si raccomanda un’ulteriore valutazione umana.