Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
RFT (Reinforcement Fine-Tuning) su Amazon SageMaker HyperPod
Reinforcement Fine-Tuning (RFT) è una tecnica di apprendimento automatico che migliora le prestazioni del modello attraverso segnali di feedback (punteggi misurabili o premi che indicano la qualità della risposta) anziché la supervisione diretta con risposte esatte e corrette. A differenza della tradizionale regolazione di precisione supervisionata che apprende dalle coppie input-output, RFT utilizza le funzioni di ricompensa per valutare le risposte del modello e ottimizza iterativamente il modello per massimizzare tali ricompense.
Questo approccio è particolarmente efficace per le attività in cui è difficile definire l'output esatto e corretto, ma è possibile misurare in modo affidabile la qualità della risposta. RFT consente ai modelli di apprendere comportamenti e preferenze complessi attraverso prove e feedback, il che lo rende ideale per applicazioni che richiedono un processo decisionale articolato, una risoluzione creativa dei problemi o il rispetto di criteri di qualità specifici che possono essere valutati programmaticamente.
Quando usare RFT
Usa RFT quando puoi definire criteri di successo chiari e misurabili ma hai difficoltà a fornire risultati esatti e corretti per la formazione. È ideale per attività in cui la qualità è soggettiva o multiforme, come la scrittura creativa, l'ottimizzazione del codice o il ragionamento complesso, in cui esistono più soluzioni valide ma alcune sono chiaramente migliori di altre.
RFT funziona al meglio quando si dispone di quanto segue:
-
Una funzione di ricompensa affidabile in grado di valutare gli output del modello in modo programmatico
-
È necessario allineare il comportamento del modello a preferenze o vincoli specifici
-
Situazioni in cui la messa a punto tradizionale con supervisione non è sufficiente perché la raccolta di esempi etichettati di alta qualità è costosa o poco pratica
Prendi in considerazione RFT per le applicazioni che richiedono miglioramenti iterativi, personalizzazione o aderenza a regole aziendali complesse che possono essere codificate come segnali di ricompensa.
Per cosa RFT è più adatto
RFT eccelle nei settori in cui la qualità dell'output può essere misurata oggettivamente, ma le risposte ottimali sono difficili da definire in anticipo:
-
Risoluzione matematica dei problemi: correttezza verificabile con percorsi di soluzione multipli
-
Generazione e ottimizzazione del codice: risultati di esecuzione testabili e metriche prestazionali
-
Compiti di ragionamento scientifico: coerenza logica e accuratezza dei fatti
-
Analisi strutturata dei dati: output verificabili a livello di codice
-
Ragionamento in più fasi: attività che richiedono una progressione logica step-by-step
-
Utilizzo degli strumenti e chiamate API: successo misurabile in base ai risultati di esecuzione
-
Flussi di lavoro complessi: rispetto di vincoli e regole aziendali specifici
RFT funziona eccezionalmente bene quando è necessario bilanciare più obiettivi concorrenti come precisione, efficienza e stile.
Quando utilizzare la modalità di ragionamento per l'allenamento RFT
Amazon Nova 2.0 supporta la modalità ragionamento durante l'addestramento RFT. Sono disponibili le seguenti modalità:
-
nessuno: nessun ragionamento (ometti il campo reasoning_effort)
-
basso: sovraccarico minimo di ragionamento
-
high: massima capacità di ragionamento (impostazione predefinita quando è specificato reasoning_effort)
Nota
Non esiste un'opzione media per RFT. Se il campo reasoning_effort non è presente nella configurazione, il ragionamento è disabilitato.
Usa un ragionamento elevato per quanto segue:
-
Compiti analitici complessi
-
Risoluzione di problemi matematici
-
Deduzione logica in più fasi
-
Attività in cui il step-by-step pensiero aggiunge valore
Usa none (ometti reasoning_effort) o low reasoning per quanto segue:
-
Semplici domande fattuali
-
Classificazioni dirette
-
Ottimizzazione della velocità e dei costi
-
Risposta semplice alle domande
Importante
Le modalità di ragionamento più avanzate aumentano i tempi e i costi di formazione, la latenza e i costi dell'inferenza, ma aumentano anche la capacità del modello per attività di ragionamento complesse.
Modelli supportati
RFT on SageMaker HyperPod supporta Amazon Nova Lite 2.0 (amazon.nova-2-lite-v 1:0:256 k).
Fasi principali
Il processo RFT prevede quattro fasi chiave:
-
Implementazione di un valutatore: crea una funzione di ricompensa per assegnare un punteggio programmatico alle risposte del modello in base ai tuoi criteri di qualità.
-
Istruzioni di caricamento: prepara e carica i dati di allenamento nel formato conversazionale specificato con dati di riferimento per la valutazione.
-
Avvio di un lavoro: avvia il processo di messa a punto del rinforzo con i parametri configurati.
-
Monitoraggio: monitora i progressi della formazione tramite dashboard di metriche per garantire che il modello apprenda in modo efficace.
Ogni fase si basa su quella precedente e il valutatore funge da base che guida l'intero processo di formazione fornendo segnali di feedback coerenti.