Parametri per l'ottimizzazione di modelli linguistici di grandi dimensioni in Autopilot - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Parametri per l'ottimizzazione di modelli linguistici di grandi dimensioni in Autopilot

La sezione seguente descrive le metriche che è possibile utilizzare per comprendere i modelli linguistici di grandi dimensioni (LLM) ottimizzati con fine-tuning. Utilizzando un set di dati, Autopilot esegue direttamente il fine-tuning di un LLM di destinazione per migliorare una metrica oggettiva predefinita, la perdita di entropia incrociata.

La perdita di entropia incrociata è un parametro ampiamente utilizzato per valutare la differenza tra la distribuzione di probabilità prevista e la distribuzione effettiva delle parole nei dati di addestramento. Riducendo al minimo la perdita di entropia incrociata, il modello impara a fare previsioni più accurate e contestualmente pertinenti, in particolare nelle attività relative alla generazione di testo.

Dopo aver ottimizzato con fine-tuning un LLM, è possibile valutare la qualità del testo generato utilizzando una serie di punteggi ROUGE. Inoltre, è possibile analizzare le perplessità e le perdite di addestramento e convalida tra entropia incrociata come parte del processo di valutazione.

  • La perdita di perplessità misura la capacità del modello di prevedere la parola successiva in una sequenza di testo, mentre valori più bassi indicano una migliore comprensione della lingua e del contesto.

  • Recall-Oriented Understudy for Gisting Evaluation (ROUGE) è un insieme di metriche utilizzate nel campo dell’elaborazione del linguaggio naturale (NLP) e del machine learning per valutare la qualità del testo generato automaticamente, come la sintesi testuale o la generazione di testo. Valuta principalmente le somiglianze tra il testo generato e il testo di riferimento (scritto dall’utente) di un set di dati di convalida. Le misure di ROUGE sono progettate per valutare vari aspetti della somiglianza del testo, tra cui la precisione e il richiamo degli n-grammi (sequenze di parole contigue) nei testi generati dal sistema e di riferimento. L'obiettivo è valutare la capacità di un modello di catturare le informazioni presenti nel testo di riferimento.

    Esistono diverse varianti di metriche ROUGE, a seconda del tipo di n-grammi utilizzati e degli aspetti specifici della qualità del testo da valutare.

    L’elenco seguente contiene il nome e la descrizione delle metriche ROUGE disponibili dopo il fine-tuning di modelli linguistici di grandi dimensioni in Autopilot.

    ROUGE-1, ROUGE-2

    ROUGE-N, la metrica ROUGE primaria, misura la sovrapposizione di n-grammi tra i testi generati dal sistema e quelli di riferimento. È possibile regolare ROUGE-N su diversi valori di n (qui 1 o 2) per valutare il modo in cui il testo generato dal sistema acquisisce gli n-grammi dal testo di riferimento.

    ROUGE-L

    ROUGE-L (ROUGE-Longest Common Subsequence) calcola la sottosequenza comune più lunga tra il testo generato dal sistema e il testo di riferimento. Questa variante considera l'ordine delle parole oltre alla sovrapposizione dei contenuti.

    ROUGE-L-Sum

    ROUGE-L-SUM (Longest Common Subsequence for Summarization) è progettato per la valutazione di sistemi di sintesi testuale. Si concentra sulla misurazione della sottosequenza comune più lunga tra il riepilogo generato automaticamente e il riepilogo di riferimento. ROUGE-L-SUM tiene conto dell’ordine delle parole nel testo, importante nelle attività di sintesi testuale.