Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Monitoraggio dell'addestramento RFT
Monitora le metriche chiave durante la formazione per garantire un apprendimento efficace e identificare tempestivamente potenziali problemi.
Argomenti
Metriche chiave da monitorare
Monitora le seguenti metriche utilizzate MlFlow durante l'allenamento:
Metriche sui premi:
-
Punteggio medio di ricompensa: qualità complessiva delle risposte del modello (dovrebbe aumentare nel tempo)
-
Distribuzione dei premi: percentuale di risposte che ricevono premi alti, medi e bassi
-
Premi per la formazione e la convalida: confronta per individuare l'overfit
Metriche di formazione:
-
Aggiornamenti delle norme: numero di aggiornamenti del peso eseguiti con successo
-
Percentuale di completamento dell'implementazione: percentuale di campioni valutati con successo
Per quanto riguarda i modelli:
-
Stabilizzazione dei premi (indica uno scarso apprendimento)
-
I premi di convalida diminuiscono mentre aumentano i premi di formazione (sovradimensionamento)
-
La varianza delle ricompense aumenta in modo significativo nel tempo (instabilità)
-
Alta percentuale di errori nella funzione di ricompensa (problemi di implementazione)
Quando interrompere l'allenamento:
-
Le metriche prestazionali prefissate sono state raggiunte
-
I premi si stabilizzano e non migliorano più
-
Le prestazioni di convalida peggiorano (è stato rilevato un sovradimensionamento)
-
È stato raggiunto il budget massimo per la formazione
Guida agli iperparametri
Utilizza i seguenti iperparametri consigliati in base al tuo approccio di allenamento:
Generale:
-
Epoche: 1
-
Tasso di apprendimento (lr): 1e-7
-
Numero di generazioni: 8
-
Numero massimo di nuovi token: 8192
-
Dimensione del lotto: 256
LoRa (adattamento a basso rango):
-
Grado LoRa: 32
Nota
Modifica questi valori in base alle dimensioni del set di dati e alle prestazioni di convalida. Monitora le metriche di allenamento per evitare un sovradimensionamento.
Valutazione dopo RFT
Al termine della formazione, valuta il tuo modello perfezionato per valutare i miglioramenti delle prestazioni:
-
Esegui il processo di valutazione RFT: utilizza il checkpoint del corso di formazione RFT come modello
-
Confronto con quello di base: valuta sia il modello base che il modello perfezionato sullo stesso set di test
-
Analizza le metriche: esamina le metriche specifiche delle attività (precisione, punteggi di ricompensa, ecc.)
-
Esegui una revisione qualitativa: ispeziona manualmente i campioni in uscita per verificarne la qualità
Per le procedure di valutazione dettagliate, consultate la sezione Valutazione.
Utilizzo di modelli ottimizzati
Accesso ai posti di blocco:
Al termine dell'addestramento, individua il checkpoint:
-
Accedi al tuo
output_pathaccount in S3 -
Scarica ed estrai
output.tar.gz -
Aprire
manifest.json -
Copia il
checkpoint_s3_bucketvalore
Distribuzione per l'inferenza:
Usa il percorso S3 del checkpoint per l'inferenza o l'ulteriore formazione:
run: model_type: amazon.nova-2-lite-v1:0:256k model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<job-name>"
Per le istruzioni di distribuzione e inferenza, consulta la sezione Inferenza.
Limitazioni e procedure consigliate
Limitazioni attuali:
Restrizioni relative alla beta:
-
È necessario creare un nuovo gruppo RIG per RFT. Questa limitazione verrà risolta da GA.
-
Gruppi di istanze non RIG non consentiti: assicurati che il HyperPod cluster contenga solo gruppi di istanze con restrizioni (RIGs), nessun gruppo di istanze regolari. Questa limitazione verrà risolta da GA.
-
Requisiti relativi al tipo di istanza: sono supportate solo le istanze P5 (minimo 8x P5.48xLarge). Prossimamente: supporto per tipi di istanze più piccoli (ETA: metà gennaio 2025).
Limitazioni funzionali:
-
Timeout Lambda di 15 minuti: le funzioni Reward devono essere completate entro 15 minuti
-
Solo turno singolo: le conversazioni a turni multipli non sono supportate
-
Set di dati di convalida: non supportati durante l'allenamento. Utilizza processi di valutazione separati per valutare i progressi della formazione.
Considerazioni sulla formazione:
-
Scenari con ricompense ridotte: potrebbero avere difficoltà quando meno del 5% degli esempi riceve ricompense positive: prendete in considerazione innanzitutto l'SFT
-
Requisiti in materia di dati: è necessaria una diversità sufficiente per apprendere in modo efficace
-
Costo computazionale: più costoso della regolazione fine supervisionata
Nova Forge rimuove alcune di queste limitazioni:
-
Supporta conversazioni a più turni
-
Consente funzioni di ricompensa che superano i timeout di 15 minuti
-
Fornisce algoritmi e opzioni di ottimizzazione avanzati
-
Progettato per casi d'uso aziendali complessi, ottimizzato specificamente per creare modelli di frontiera
Migliori pratiche:
Inizia in piccolo e scala:
-
Inizia con set di dati minimi (100-200 esempi) e poche epoche di formazione
-
Convalida il tuo approccio prima di ampliare
-
Aumenta gradualmente le dimensioni del set di dati e le fasi di formazione in base ai risultati
Baseline con SFT innanzitutto:
-
Se i punteggi di ricompensa sono costantemente bassi (ad esempio, sempre 0), esegui SFT prima di RFT
-
RFT richiede prestazioni di base ragionevoli per migliorare efficacemente
Progetta funzioni di ricompensa efficienti:
-
Esegui in pochi secondi, non in minuti
-
Riduci al minimo le chiamate API esterne
-
Utilizza algoritmi e strutture dati efficienti
-
Implementa una corretta gestione degli errori
-
Esegui un test accurato prima dell'allenamento
-
Sfrutta le funzionalità di scalabilità parallela di Lambda
Monitora attivamente la formazione:
-
Tieni traccia dei punteggi medi di ricompensa nel tempo
-
Guarda la distribuzione delle ricompense tra i campioni
-
Confronta i premi di formazione e quelli di convalida
-
Cercate i modelli che vi riguardano (altalene, sovradimensionamento, instabilità)
Iterate in base ai risultati:
-
Se i premi non migliorano dopo diverse iterazioni, modifica il design della funzione di ricompensa
-
Aumenta la diversità dei set di dati per fornire segnali di apprendimento più chiari
-
Prendi in considerazione la possibilità di passare a SFT se i premi rimangono vicini allo zero
-
Sperimenta con diversi iperparametri (tasso di apprendimento, dimensione del batch)
Ottimizza la qualità dei dati:
-
Garantisci esempi diversi e rappresentativi
-
Includi casi limite e campioni difficili
-
La funzione Verify Reward assegna un punteggio corretto a tutti i tipi di esempi
-
Rimuovi o correggi i campioni che confondono la funzione di ricompensa
risoluzione dei problemi
Errori della funzione di ricompensa:
Sintomi: elevato tasso di errore nelle chiamate alla funzione di ricompensa durante l'allenamento
Problema |
Caratteristiche |
Risoluzione |
|---|---|---|
Timeout Lambda |
Timeout frequenti dopo 15 minuti |
Ottimizzate le prestazioni delle funzioni; prendete in considerazione Nova Forge per valutazioni complesse |
Concorrenza insufficiente |
Errori di limitazione Lambda |
Aumenta lambda_concurrency_limit o richiedi un aumento della quota |
Formato di restituzione non valido |
La formazione fallisce a causa di errori di formato |
Verifica che la struttura restituita corrisponda al formato di interfaccia richiesto |
Eccezioni non gestite |
Errori intermittenti |
Aggiungi una gestione e una registrazione complete degli errori |
Guasti delle API esterne |
Punteggio incoerente |
Implementa la logica dei tentativi e le strategie di fallback |
Scarse prestazioni di allenamento:
Sintomi: le ricompense non migliorano o si stabilizzano a valori bassi
Risoluzioni:
-
Verifica della correttezza della funzione di ricompensa: prova con esempi noti good/bad
-
Verifica le prestazioni di base: valuta il modello base; se la precisione è prossima allo zero, esegui prima l'SFT
-
Aumenta la diversità dei dati: aggiungi esempi più vari che coprono diversi scenari
-
Modifica gli iperparametri: prova diversi tassi di apprendimento o dimensioni di batch diverse
-
Verifica la qualità del segnale di ricompensa: assicurati che i premi distinguano tra risposte positive e negative
Sovradattamento:
Sintomi: i premi di allenamento aumentano mentre i premi di convalida diminuiscono
Risoluzioni:
-
Riduci le fasi di allenamento: interrompi l'allenamento prima
-
Aumenta le dimensioni del set di dati: aggiungi altri esempi di formazione
-
Aggiungi regolarizzazione: Regola o
weight_decayentropy_coeff -
Aumenta la diversità dei dati: assicurati che il set di formazione rappresenti la distribuzione completa