RFT (Reinforcement Fine-Tuning) su Amazon SageMaker HyperPod

Reinforcement Fine-Tuning (RFT) è una tecnica di apprendimento automatico che migliora le prestazioni del modello attraverso segnali di feedback (punteggi misurabili o premi che indicano la qualità della risposta) anziché la supervisione diretta con risposte esatte e corrette. A differenza della tradizionale regolazione di precisione supervisionata che apprende dalle coppie input-output, RFT utilizza le funzioni di ricompensa per valutare le risposte del modello e ottimizza iterativamente il modello per massimizzare tali ricompense.

Questo approccio è particolarmente efficace per le attività in cui è difficile definire l'output esatto e corretto, ma è possibile misurare in modo affidabile la qualità della risposta. RFT consente ai modelli di apprendere comportamenti e preferenze complessi attraverso prove e feedback, il che lo rende ideale per applicazioni che richiedono un processo decisionale articolato, una risoluzione creativa dei problemi o il rispetto di criteri di qualità specifici che possono essere valutati programmaticamente.

Quando usare RFT

Usa RFT quando puoi definire criteri di successo chiari e misurabili ma hai difficoltà a fornire risultati esatti e corretti per la formazione. È ideale per attività in cui la qualità è soggettiva o multiforme, come la scrittura creativa, l'ottimizzazione del codice o il ragionamento complesso, in cui esistono più soluzioni valide ma alcune sono chiaramente migliori di altre.

RFT funziona al meglio quando si dispone di quanto segue:

Una funzione di ricompensa affidabile in grado di valutare gli output del modello in modo programmatico
È necessario allineare il comportamento del modello a preferenze o vincoli specifici
Situazioni in cui la messa a punto tradizionale con supervisione non è sufficiente perché la raccolta di esempi etichettati di alta qualità è costosa o poco pratica

Prendi in considerazione RFT per le applicazioni che richiedono miglioramenti iterativi, personalizzazione o aderenza a regole aziendali complesse che possono essere codificate come segnali di ricompensa.

Per cosa RFT è più adatto

RFT eccelle nei settori in cui la qualità dell'output può essere misurata oggettivamente, ma le risposte ottimali sono difficili da definire in anticipo:

Risoluzione matematica dei problemi: correttezza verificabile con percorsi di soluzione multipli
Generazione e ottimizzazione del codice: risultati di esecuzione testabili e metriche prestazionali
Compiti di ragionamento scientifico: coerenza logica e accuratezza dei fatti
Analisi strutturata dei dati: output verificabili a livello di codice
Ragionamento in più fasi: attività che richiedono una progressione logica step-by-step
Utilizzo degli strumenti e chiamate API: successo misurabile in base ai risultati di esecuzione
Flussi di lavoro complessi: rispetto di vincoli e regole aziendali specifici

RFT funziona eccezionalmente bene quando è necessario bilanciare più obiettivi concorrenti come precisione, efficienza e stile.

Quando utilizzare la modalità di ragionamento per l'allenamento RFT

Amazon Nova 2.0 supporta la modalità di ragionamento durante l'addestramento RFT. Sono disponibili le seguenti modalità:

nessuno: nessun ragionamento (ometti il campo reasoning_effort)
basso: sovraccarico minimo di ragionamento
high: massima capacità di ragionamento (impostazione predefinita quando è specificato reasoning_effort)

Nota

Non esiste un'opzione media per RFT. Se il campo reasoning_effort non è presente nella configurazione, il ragionamento è disabilitato.

Usa un ragionamento elevato per quanto segue:

Compiti analitici complessi
Risoluzione di problemi matematici
Deduzione logica in più fasi
Attività in cui il step-by-step pensiero aggiunge valore

Usa none (ometti reasoning_effort) o low reasoning per quanto segue:

Domande fattuali semplici
Classificazioni dirette
Ottimizzazione della velocità e dei costi
Risposta semplice alle domande

Importante

Le modalità di ragionamento più avanzate aumentano i tempi e i costi di formazione, la latenza e i costi dell'inferenza, ma aumentano anche la capacità del modello per attività di ragionamento complesse.

Modelli supportati

RFT on SageMaker HyperPod supporta Amazon Nova Lite 2.0 (amazon.nova-2-lite-v 1:0:256 k).

Fasi principali

Il processo RFT prevede quattro fasi chiave:

Implementazione di un valutatore: crea una funzione di ricompensa per assegnare un punteggio programmatico alle risposte del modello in base ai tuoi criteri di qualità.
Istruzioni di caricamento: prepara e carica i dati di allenamento nel formato conversazionale specificato con dati di riferimento per la valutazione.
Avvio di un lavoro: avvia il processo di messa a punto del rinforzo con i parametri configurati.
Monitoraggio: monitora i progressi della formazione tramite dashboard di metriche per garantire che il modello apprenda in modo efficace.

Ogni fase si basa su quella precedente e il valutatore funge da base che guida l'intero processo di formazione fornendo segnali di feedback coerenti.

Argomenti

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

SFT su Nova 2.0

RFT su Nova 2.0