Metriche chiave da monitorare Guida agli iperparametri Valutazione dopo RFT Utilizzo di modelli ottimizzati Limitazioni e procedure consigliate Risoluzione dei problemi

Monitoraggio dell'addestramento RFT

Monitora le metriche chiave durante la formazione per garantire un apprendimento efficace e identificare tempestivamente potenziali problemi.

Metriche chiave da monitorare

Monitora le seguenti metriche utilizzate MlFlow durante l'allenamento:

Metriche sui premi:

Punteggio medio di ricompensa: qualità complessiva delle risposte del modello (dovrebbe aumentare nel tempo)
Distribuzione dei premi: percentuale di risposte che ricevono premi alti, medi e bassi
Premi per la formazione e la convalida: confronta per individuare l'overfit

Metriche di formazione:

Aggiornamenti delle norme: numero di aggiornamenti del peso eseguiti con successo
Percentuale di completamento dell'implementazione: percentuale di campioni valutati con successo

Per quanto riguarda i modelli:

Stabilizzazione dei premi (indica uno scarso apprendimento)
I premi di convalida diminuiscono mentre aumentano i premi di formazione (sovradimensionamento)
La varianza delle ricompense aumenta in modo significativo nel tempo (instabilità)
Alta percentuale di errori nella funzione di ricompensa (problemi di implementazione)

Quando interrompere l'allenamento:

Le metriche prestazionali prefissate sono state raggiunte
I premi si stabilizzano e non migliorano più
Le prestazioni di convalida peggiorano (è stato rilevato un sovradimensionamento)
È stato raggiunto il budget massimo per la formazione

Guida agli iperparametri

Utilizza i seguenti iperparametri consigliati in base al tuo approccio di allenamento:

Generale:

Epoche: 1
Tasso di apprendimento (lr): 1e-7
Numero di generazioni: 8
Numero massimo di nuovi token: 8192
Dimensione del lotto: 256

LoRa (adattamento a basso rango):

Grado LoRa: 32

Nota

Modifica questi valori in base alle dimensioni del set di dati e alle prestazioni di convalida. Monitora le metriche di allenamento per evitare un sovradimensionamento.

Valutazione dopo RFT

Al termine della formazione, valuta il tuo modello perfezionato per valutare i miglioramenti delle prestazioni:

Esegui il processo di valutazione RFT: utilizza il checkpoint del tuo corso di formazione RFT come modello
Confronto con quello di base: valuta sia il modello base che il modello perfezionato sullo stesso set di test
Analizza le metriche: esamina le metriche specifiche delle attività (precisione, punteggi di ricompensa, ecc.)
Esegui una revisione qualitativa: ispeziona manualmente i campioni in uscita per verificarne la qualità

Per le procedure di valutazione dettagliate, consultate la sezione Valutazione.

Utilizzo di modelli ottimizzati

Accesso ai posti di blocco:

Al termine dell'addestramento, individua il checkpoint:

Accedi al tuo output_path account in S3
Scarica ed estrai output.tar.gz
Aprire manifest.json
Copia il checkpoint_s3_bucket valore

Distribuzione per l'inferenza:

Usa il percorso S3 del checkpoint per l'inferenza o l'ulteriore formazione:


run:
  model_type: amazon.nova-2-lite-v1:0:256k
  model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<job-name>"

Per le istruzioni di distribuzione e inferenza, consulta la sezione Inferenza.

Limitazioni e procedure consigliate

Limitazioni attuali:

Restrizioni relative alla beta:

È necessario creare un nuovo gruppo RIG per RFT. Questa limitazione verrà risolta da GA.
Gruppi di istanze non RIG non consentiti: assicurati che il HyperPod cluster contenga solo gruppi di istanze con restrizioni (RIGs), nessun gruppo di istanze regolari. Questa limitazione verrà risolta da GA.
Requisiti relativi al tipo di istanza: sono supportate solo le istanze P5 (minimo 8x P5.48xLarge). Prossimamente: supporto per tipi di istanze più piccoli (ETA: metà gennaio 2025).

Limitazioni funzionali:

Timeout Lambda di 15 minuti: le funzioni Reward devono essere completate entro 15 minuti
Solo turno singolo: le conversazioni a più turni non sono supportate
Set di dati di convalida: non supportati durante l'allenamento. Utilizza processi di valutazione separati per valutare i progressi della formazione.

Considerazioni sulla formazione:

Scenari con ricompense ridotte: potrebbero avere difficoltà quando meno del 5% degli esempi riceve ricompense positive: prendete in considerazione innanzitutto l'SFT
Requisiti in materia di dati: è necessaria una diversità sufficiente per apprendere in modo efficace
Costo computazionale: più costoso della regolazione fine supervisionata

Nova Forge rimuove alcune di queste limitazioni:

Supporta conversazioni a più turni
Consente funzioni di ricompensa che superano i timeout di 15 minuti
Fornisce algoritmi e opzioni di ottimizzazione avanzati
Progettato per casi d'uso aziendali complessi, ottimizzato specificamente per creare modelli di frontiera

Le migliori pratiche:

Inizia in piccolo e scala:

Inizia con set di dati minimi (100-200 esempi) e poche epoche di formazione
Convalida il tuo approccio prima di ampliare
Aumenta gradualmente le dimensioni del set di dati e le fasi di formazione in base ai risultati

Baseline con SFT innanzitutto:

Se i punteggi di ricompensa sono costantemente bassi (ad esempio, sempre 0), esegui SFT prima di RFT
RFT richiede prestazioni di base ragionevoli per migliorare efficacemente

Progetta funzioni di ricompensa efficienti:

Esegui in pochi secondi, non in minuti
Riduci al minimo le chiamate API esterne
Utilizza algoritmi e strutture dati efficienti
Implementa una corretta gestione degli errori
Esegui un test accurato prima dell'allenamento
Sfrutta le funzionalità di scalabilità parallela di Lambda

Monitora attivamente la formazione:

Tieni traccia dei punteggi medi di ricompensa nel tempo
Guarda la distribuzione delle ricompense tra i campioni
Confronta i premi di formazione e quelli di convalida
Cercate i modelli che vi riguardano (altalene, sovradimensionamento, instabilità)

Iterate in base ai risultati:

Se i premi non migliorano dopo diverse iterazioni, modifica il design della funzione di ricompensa
Aumenta la diversità dei set di dati per fornire segnali di apprendimento più chiari
Prendi in considerazione la possibilità di passare a SFT se i premi rimangono vicini allo zero
Sperimenta con diversi iperparametri (tasso di apprendimento, dimensione del batch)

Ottimizza la qualità dei dati:

Garantisci esempi diversi e rappresentativi
Includi casi limite e campioni difficili
La funzione Verify Reward assegna un punteggio corretto a tutti i tipi di esempi
Rimuovi o correggi i campioni che confondono la funzione di ricompensa

Risoluzione dei problemi

Errori della funzione di ricompensa:

Sintomi: elevato tasso di errore nelle chiamate alla funzione di ricompensa durante l'allenamento

Problema	Caratteristiche	Risoluzione
Timeout Lambda	Timeout frequenti dopo 15 minuti	Ottimizzate le prestazioni delle funzioni; prendete in considerazione Nova Forge per valutazioni complesse
Concorrenza insufficiente	Errori di limitazione Lambda	Aumenta lambda_concurrency_limit o richiedi un aumento della quota
Formato di restituzione non valido	La formazione fallisce a causa di errori di formato	Verifica che la struttura restituita corrisponda al formato di interfaccia richiesto
Eccezioni non gestite	Errori intermittenti	Aggiungi una gestione e una registrazione complete degli errori
Guasti delle API esterne	Punteggio incoerente	Implementa la logica dei tentativi e le strategie di fallback

Scarse prestazioni di allenamento:

Sintomi: le ricompense non migliorano o si stabilizzano a valori bassi

Risoluzioni:

Verifica della correttezza della funzione di ricompensa: prova con esempi noti good/bad
Verifica le prestazioni di base: valuta il modello base; se la precisione è prossima allo zero, esegui prima l'SFT
Aumenta la diversità dei dati: aggiungi esempi più vari che coprono diversi scenari
Modifica gli iperparametri: prova diversi tassi di apprendimento o dimensioni di batch diverse
Verifica la qualità del segnale di ricompensa: assicurati che i premi distinguano tra risposte positive e negative

Sovradattamento:

Sintomi: i premi di allenamento aumentano mentre i premi di convalida diminuiscono

Risoluzioni:

Riduci le fasi di allenamento: interrompi l'allenamento prima
Aumenta le dimensioni del set di dati: aggiungi altri esempi di formazione
Aggiungi regolarizzazione: Regola o weight_decay entropy_coeff
Aumenta la diversità dei dati: assicurati che il set di formazione rappresenti la distribuzione completa

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Funzioni di ricompensa personalizzate nel tuo ambiente AWS

Fine-tuning