RFT (Reinforcement Fine-Tuning) su Amazon SageMaker HyperPod - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

RFT (Reinforcement Fine-Tuning) su Amazon SageMaker HyperPod

Reinforcement Fine-Tuning (RFT) è una tecnica di apprendimento automatico che migliora le prestazioni del modello attraverso segnali di feedback (punteggi misurabili o premi che indicano la qualità della risposta) anziché la supervisione diretta con risposte esatte e corrette. A differenza della tradizionale regolazione di precisione supervisionata che apprende dalle coppie input-output, RFT utilizza le funzioni di ricompensa per valutare le risposte del modello e ottimizza iterativamente il modello per massimizzare tali ricompense.

Questo approccio è particolarmente efficace per le attività in cui è difficile definire l'output esatto e corretto, ma è possibile misurare in modo affidabile la qualità della risposta. RFT consente ai modelli di apprendere comportamenti e preferenze complessi attraverso prove e feedback, il che lo rende ideale per applicazioni che richiedono un processo decisionale articolato, una risoluzione creativa dei problemi o il rispetto di criteri di qualità specifici che possono essere valutati programmaticamente.

Quando usare RFT

Usa RFT quando puoi definire criteri di successo chiari e misurabili ma hai difficoltà a fornire risultati esatti e corretti per la formazione. È ideale per attività in cui la qualità è soggettiva o multiforme, come la scrittura creativa, l'ottimizzazione del codice o il ragionamento complesso, in cui esistono più soluzioni valide ma alcune sono chiaramente migliori di altre.

RFT funziona al meglio quando si dispone di quanto segue:

  • Una funzione di ricompensa affidabile in grado di valutare gli output del modello in modo programmatico

  • È necessario allineare il comportamento del modello a preferenze o vincoli specifici

  • Situazioni in cui la messa a punto tradizionale con supervisione non è sufficiente perché la raccolta di esempi etichettati di alta qualità è costosa o poco pratica

Prendi in considerazione RFT per le applicazioni che richiedono miglioramenti iterativi, personalizzazione o aderenza a regole aziendali complesse che possono essere codificate come segnali di ricompensa.

Per cosa RFT è più adatto

RFT eccelle nei settori in cui la qualità dell'output può essere misurata oggettivamente, ma le risposte ottimali sono difficili da definire in anticipo:

  • Risoluzione matematica dei problemi: correttezza verificabile con percorsi di soluzione multipli

  • Generazione e ottimizzazione del codice: risultati di esecuzione testabili e metriche prestazionali

  • Compiti di ragionamento scientifico: coerenza logica e accuratezza dei fatti

  • Analisi strutturata dei dati: output verificabili a livello di codice

  • Ragionamento in più fasi: attività che richiedono una progressione logica step-by-step

  • Utilizzo degli strumenti e chiamate API: successo misurabile in base ai risultati di esecuzione

  • Flussi di lavoro complessi: rispetto di vincoli e regole aziendali specifici

RFT funziona eccezionalmente bene quando è necessario bilanciare più obiettivi concorrenti come precisione, efficienza e stile.

Quando utilizzare la modalità di ragionamento per l'allenamento RFT

Amazon Nova 2.0 supporta la modalità ragionamento durante l'addestramento RFT. Sono disponibili le seguenti modalità:

  • nessuno: nessun ragionamento (ometti il campo reasoning_effort)

  • basso: sovraccarico minimo di ragionamento

  • high: massima capacità di ragionamento (impostazione predefinita quando è specificato reasoning_effort)

Nota

Non esiste un'opzione media per RFT. Se il campo reasoning_effort non è presente nella configurazione, il ragionamento è disabilitato.

Usa un ragionamento elevato per quanto segue:

  • Compiti analitici complessi

  • Risoluzione di problemi matematici

  • Deduzione logica in più fasi

  • Attività in cui il step-by-step pensiero aggiunge valore

Usa none (ometti reasoning_effort) o low reasoning per quanto segue:

  • Semplici domande fattuali

  • Classificazioni dirette

  • Ottimizzazione della velocità e dei costi

  • Risposta semplice alle domande

Importante

Le modalità di ragionamento più avanzate aumentano i tempi e i costi di formazione, la latenza e i costi dell'inferenza, ma aumentano anche la capacità del modello per attività di ragionamento complesse.

Modelli supportati

RFT on SageMaker HyperPod supporta Amazon Nova Lite 2.0 (amazon.nova-2-lite-v 1:0:256 k).

Fasi principali

Il processo RFT prevede quattro fasi chiave:

  • Implementazione di un valutatore: crea una funzione di ricompensa per assegnare un punteggio programmatico alle risposte del modello in base ai tuoi criteri di qualità.

  • Istruzioni di caricamento: prepara e carica i dati di allenamento nel formato conversazionale specificato con dati di riferimento per la valutazione.

  • Avvio di un lavoro: avvia il processo di messa a punto del rinforzo con i parametri configurati.

  • Monitoraggio: monitora i progressi della formazione tramite dashboard di metriche per garantire che il modello apprenda in modo efficace.

Ogni fase si basa su quella precedente e il valutatore funge da base che guida l'intero processo di formazione fornendo segnali di feedback coerenti.