Monitoraggio dell'addestramento RFT - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Monitoraggio dell'addestramento RFT

Monitora le metriche chiave durante la formazione per garantire un apprendimento efficace e identificare tempestivamente potenziali problemi.

Metriche chiave da monitorare

Monitora le seguenti metriche utilizzate MlFlow durante l'allenamento:

Metriche sui premi:

  • Punteggio medio di ricompensa: qualità complessiva delle risposte del modello (dovrebbe aumentare nel tempo)

  • Distribuzione dei premi: percentuale di risposte che ricevono premi alti, medi e bassi

  • Premi per la formazione e la convalida: confronta per individuare l'overfit

Metriche di formazione:

  • Aggiornamenti delle norme: numero di aggiornamenti del peso eseguiti con successo

  • Percentuale di completamento dell'implementazione: percentuale di campioni valutati con successo

Per quanto riguarda i modelli:

  • Stabilizzazione dei premi (indica uno scarso apprendimento)

  • I premi di convalida diminuiscono mentre aumentano i premi di formazione (sovradimensionamento)

  • La varianza delle ricompense aumenta in modo significativo nel tempo (instabilità)

  • Alta percentuale di errori nella funzione di ricompensa (problemi di implementazione)

Quando interrompere l'allenamento:

  • Le metriche prestazionali prefissate sono state raggiunte

  • I premi si stabilizzano e non migliorano più

  • Le prestazioni di convalida peggiorano (è stato rilevato un sovradimensionamento)

  • È stato raggiunto il budget massimo per la formazione

Guida agli iperparametri

Utilizza i seguenti iperparametri consigliati in base al tuo approccio di allenamento:

Generale:

  • Epoche: 1

  • Tasso di apprendimento (lr): 1e-7

  • Numero di generazioni: 8

  • Numero massimo di nuovi token: 8192

  • Dimensione del lotto: 256

LoRa (adattamento a basso rango):

  • Grado LoRa: 32

Nota

Modifica questi valori in base alle dimensioni del set di dati e alle prestazioni di convalida. Monitora le metriche di allenamento per evitare un sovradimensionamento.

Valutazione dopo RFT

Al termine della formazione, valuta il tuo modello perfezionato per valutare i miglioramenti delle prestazioni:

  • Esegui il processo di valutazione RFT: utilizza il checkpoint del corso di formazione RFT come modello

  • Confronto con quello di base: valuta sia il modello base che il modello perfezionato sullo stesso set di test

  • Analizza le metriche: esamina le metriche specifiche delle attività (precisione, punteggi di ricompensa, ecc.)

  • Esegui una revisione qualitativa: ispeziona manualmente i campioni in uscita per verificarne la qualità

Per le procedure di valutazione dettagliate, consultate la sezione Valutazione.

Utilizzo di modelli ottimizzati

Accesso ai posti di blocco:

Al termine dell'addestramento, individua il checkpoint:

  1. Accedi al tuo output_path account in S3

  2. Scarica ed estrai output.tar.gz

  3. Aprire manifest.json

  4. Copia il checkpoint_s3_bucket valore

Distribuzione per l'inferenza:

Usa il percorso S3 del checkpoint per l'inferenza o l'ulteriore formazione:

run: model_type: amazon.nova-2-lite-v1:0:256k model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<job-name>"

Per le istruzioni di distribuzione e inferenza, consulta la sezione Inferenza.

Limitazioni e procedure consigliate

Limitazioni attuali:

Restrizioni relative alla beta:

  • È necessario creare un nuovo gruppo RIG per RFT. Questa limitazione verrà risolta da GA.

  • Gruppi di istanze non RIG non consentiti: assicurati che il HyperPod cluster contenga solo gruppi di istanze con restrizioni (RIGs), nessun gruppo di istanze regolari. Questa limitazione verrà risolta da GA.

  • Requisiti relativi al tipo di istanza: sono supportate solo le istanze P5 (minimo 8x P5.48xLarge). Prossimamente: supporto per tipi di istanze più piccoli (ETA: metà gennaio 2025).

Limitazioni funzionali:

  • Timeout Lambda di 15 minuti: le funzioni Reward devono essere completate entro 15 minuti

  • Solo turno singolo: le conversazioni a turni multipli non sono supportate

  • Set di dati di convalida: non supportati durante l'allenamento. Utilizza processi di valutazione separati per valutare i progressi della formazione.

Considerazioni sulla formazione:

  • Scenari con ricompense ridotte: potrebbero avere difficoltà quando meno del 5% degli esempi riceve ricompense positive: prendete in considerazione innanzitutto l'SFT

  • Requisiti in materia di dati: è necessaria una diversità sufficiente per apprendere in modo efficace

  • Costo computazionale: più costoso della regolazione fine supervisionata

Nova Forge rimuove alcune di queste limitazioni:

  • Supporta conversazioni a più turni

  • Consente funzioni di ricompensa che superano i timeout di 15 minuti

  • Fornisce algoritmi e opzioni di ottimizzazione avanzati

  • Progettato per casi d'uso aziendali complessi, ottimizzato specificamente per creare modelli di frontiera

Migliori pratiche:

Inizia in piccolo e scala:

  • Inizia con set di dati minimi (100-200 esempi) e poche epoche di formazione

  • Convalida il tuo approccio prima di ampliare

  • Aumenta gradualmente le dimensioni del set di dati e le fasi di formazione in base ai risultati

Baseline con SFT innanzitutto:

  • Se i punteggi di ricompensa sono costantemente bassi (ad esempio, sempre 0), esegui SFT prima di RFT

  • RFT richiede prestazioni di base ragionevoli per migliorare efficacemente

Progetta funzioni di ricompensa efficienti:

  • Esegui in pochi secondi, non in minuti

  • Riduci al minimo le chiamate API esterne

  • Utilizza algoritmi e strutture dati efficienti

  • Implementa una corretta gestione degli errori

  • Esegui un test accurato prima dell'allenamento

  • Sfrutta le funzionalità di scalabilità parallela di Lambda

Monitora attivamente la formazione:

  • Tieni traccia dei punteggi medi di ricompensa nel tempo

  • Guarda la distribuzione delle ricompense tra i campioni

  • Confronta i premi di formazione e quelli di convalida

  • Cercate i modelli che vi riguardano (altalene, sovradimensionamento, instabilità)

Iterate in base ai risultati:

  • Se i premi non migliorano dopo diverse iterazioni, modifica il design della funzione di ricompensa

  • Aumenta la diversità dei set di dati per fornire segnali di apprendimento più chiari

  • Prendi in considerazione la possibilità di passare a SFT se i premi rimangono vicini allo zero

  • Sperimenta con diversi iperparametri (tasso di apprendimento, dimensione del batch)

Ottimizza la qualità dei dati:

  • Garantisci esempi diversi e rappresentativi

  • Includi casi limite e campioni difficili

  • La funzione Verify Reward assegna un punteggio corretto a tutti i tipi di esempi

  • Rimuovi o correggi i campioni che confondono la funzione di ricompensa

risoluzione dei problemi

Errori della funzione di ricompensa:

Sintomi: elevato tasso di errore nelle chiamate alla funzione di ricompensa durante l'allenamento

Problema

Caratteristiche

Risoluzione

Timeout Lambda

Timeout frequenti dopo 15 minuti

Ottimizzate le prestazioni delle funzioni; prendete in considerazione Nova Forge per valutazioni complesse

Concorrenza insufficiente

Errori di limitazione Lambda

Aumenta lambda_concurrency_limit o richiedi un aumento della quota

Formato di restituzione non valido

La formazione fallisce a causa di errori di formato

Verifica che la struttura restituita corrisponda al formato di interfaccia richiesto

Eccezioni non gestite

Errori intermittenti

Aggiungi una gestione e una registrazione complete degli errori

Guasti delle API esterne

Punteggio incoerente

Implementa la logica dei tentativi e le strategie di fallback

Scarse prestazioni di allenamento:

Sintomi: le ricompense non migliorano o si stabilizzano a valori bassi

Risoluzioni:

  • Verifica della correttezza della funzione di ricompensa: prova con esempi noti good/bad

  • Verifica le prestazioni di base: valuta il modello base; se la precisione è prossima allo zero, esegui prima l'SFT

  • Aumenta la diversità dei dati: aggiungi esempi più vari che coprono diversi scenari

  • Modifica gli iperparametri: prova diversi tassi di apprendimento o dimensioni di batch diverse

  • Verifica la qualità del segnale di ricompensa: assicurati che i premi distinguano tra risposte positive e negative

Sovradattamento:

Sintomi: i premi di allenamento aumentano mentre i premi di convalida diminuiscono

Risoluzioni:

  • Riduci le fasi di allenamento: interrompi l'allenamento prima

  • Aumenta le dimensioni del set di dati: aggiungi altri esempi di formazione

  • Aggiungi regolarizzazione: Regola o weight_decay entropy_coeff

  • Aumenta la diversità dei dati: assicurati che il set di formazione rappresenti la distribuzione completa