Personalizzazione di Amazon Nova sui lavori SageMaker di formazione - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Personalizzazione di Amazon Nova sui lavori SageMaker di formazione

Amazon SageMaker Training Jobs è un ambiente che ti consente di addestrare modelli di machine learning su larga scala. Forniscono e scalano automaticamente le risorse di calcolo, caricano i dati di addestramento da fonti come Amazon S3, eseguono il codice di addestramento e archiviano gli artefatti dei modelli risultanti.

Lo scopo dell’addestramento è personalizzare il modello di base di Amazon Nova utilizzando dati proprietari. Il processo di formazione prevede in genere passaggi per preparare i dati, scegliere una ricetta, modificare i parametri di configurazione nei file YAML e inviare un lavoro di formazione. Il processo di addestramento genera un checkpoint del modello addestrato in un bucket Amazon S3 gestito dal servizio. È possibile utilizzare la posizione di questo checkpoint per processi di valutazione. La personalizzazione di Nova sui lavori di SageMaker formazione archivia gli artefatti del modello in un bucket Amazon S3 gestito dal servizio. Gli artefatti nel bucket gestito dal servizio sono crittografati con chiavi KMS gestite. SageMaker I bucket Amazon S3 gestiti dal servizio attualmente non supportano la crittografia dei dati tramite chiavi KMS gestite dal cliente.

Panoramica di

Questa sezione fornisce una panoramica delle tecniche di personalizzazione e ti aiuta a scegliere l'approccio migliore per le tue esigenze e i dati disponibili.

Due fasi della formazione LLM

La formazione su modello linguistico di grandi dimensioni consiste in due fasi principali: pre-formazione e post-formazione. Durante la formazione preliminare, il modello elabora i token di testo non elaborato e li ottimizza per la previsione del token successivo. Questo processo crea un completatore di modelli che assorbe la sintassi, la semantica, i fatti e gli schemi di ragionamento dal web e dal testo curato. Tuttavia, il modello pre-addestrato non comprende le istruzioni, gli obiettivi dell'utente o il comportamento appropriato al contesto. Continua il testo in qualsiasi stile si adatti alla distribuzione della formazione. Un modello già addestrato si completa automaticamente anziché seguire le istruzioni, produce una formattazione incoerente e può rispecchiare pregiudizi indesiderati o contenuti non sicuri presenti nei dati di addestramento. La formazione preliminare rafforza la competenza generale, non l'utilità delle attività.

Dopo l'allenamento, il Pattern Completer si trasforma in un utile assistente. Si eseguono diversi cicli di Supervised Fine-Tuning (SFT) per insegnare al modello a seguire le istruzioni, aderire a schemi e politiche, chiamare strumenti e produrre risultati affidabili imitando dimostrazioni di alta qualità. Questo allineamento insegna al modello a rispondere alle istruzioni come attività anziché come testo per continuare. Si applica quindi il Reinforcement Fine-Tuning (RFT) per ottimizzare il comportamento utilizzando feedback misurabili (ad esempio verificatori o altro), bilanciando compromessi come la precisione rispetto alla brevità, la sicurezza rispetto alla copertura o il LLM-as-a-judge ragionamento in più fasi in base ai vincoli. In pratica, si alternano SFT e RFT in cicli per modellare il modello pre-addestrato in un sistema affidabile e allineato alle politiche che esegue attività complesse in modo coerente.

Scegliete il giusto approccio di personalizzazione

In questa sezione tratteremo le strategie di personalizzazione post-allenamento: RFT e SFT.

Ottimizzazione precisa dei rinforzi (RFT)

La messa a punto del rinforzo migliora le prestazioni del modello attraverso segnali di feedback (punteggi misurabili o premi che indicano la qualità della risposta) anziché la supervisione diretta con risposte esatte e corrette. A differenza della tradizionale ottimizzazione supervisionata che apprende dalle coppie di input-output, RFT utilizza le funzioni di ricompensa per valutare le risposte del modello e ottimizza iterativamente il modello per massimizzare tali ricompense. Questo approccio è ideale per le attività in cui è difficile definire l'output esatto e corretto, ma è possibile misurare in modo affidabile la qualità della risposta. RFT consente ai modelli di apprendere comportamenti e preferenze complessi attraverso prove e feedback, il che lo rende ideale per applicazioni che richiedono un processo decisionale articolato, una risoluzione creativa dei problemi o il rispetto di criteri di qualità specifici che è possibile valutare programmaticamente. Ad esempio, rispondere a domande legali complesse è un caso d'uso ideale per RFT perché si desidera insegnare al modello come ragionare meglio per rispondere alle domande in modo più accurato.

Come funziona

Nella messa a punto dei rinforzi, si parte da una linea di base basata sulle istruzioni e si tratta ogni richiesta come un piccolo torneo. In base a un determinato contributo, si campionano alcune risposte dei candidati tratte dal modello, si assegna un punteggio a ciascuna di esse con la funzione di ricompensa, quindi le si classifica all'interno di quel gruppo. La fase di aggiornamento spinge il modello a rendere più propensi i candidati con punteggi più alti la prossima volta e meno quelli con punteggi più bassi, mentre un stay-close-to-baseline vincolo impedisce che il comportamento diventi prolisso o sfruttatore. Ripeti questo ciclo su molte richieste, aggiornando i casi più complessi, rendendo più rigorosi i verificatori o giudicando le rubriche quando vedi degli exploit e monitorando continuamente le metriche relative alle attività.

Quando usare RFT

Le attività che traggono maggiori vantaggi da RFT condividono diverse caratteristiche. Offrono segnali di successo misurabili anche quando è difficile specificare un singolo output corretto. Ammettono crediti parziali o una qualità graduata, in modo da poter classificare le risposte migliori rispetto a quelle peggiori in un prompt o utilizzando una funzione di ricompensa. Esse implicano molteplici obiettivi che devono essere bilanciati (ad esempio precisione e brevità, chiarezza, sicurezza o costi). Richiedono il rispetto di vincoli espliciti che è possibile verificare a livello di codice. Operano in ambienti mediati da strumenti o basati sull'ambiente in cui i risultati sono osservabili (successo o fallimento, latenza, utilizzo delle risorse). Si verificano in regimi in cui la raccolta di obiettivi prioritari è costosa, ma il feedback automatizzato o basato sulle rubriche è abbondante. RFT funziona al meglio quando è possibile trasformare la qualità in uno scalare o in una classifica affidabile e se si desidera che il modello amplifichi preferenzialmente i comportamenti che ottengono punteggi più elevati senza bisogno di obiettivi etichettati esaustivi.

Prendi in considerazione altri metodi quando:

  • Disponete di numerose e affidabili coppie di ingresso/uscita etichettate: utilizzate SFT

  • La lacuna principale è la conoscenza o il gergo: utilizzate la generazione aumentata di recupero (RAG)

  • Il segnale di ricompensa è rumoroso o inaffidabile e non è possibile correggerlo con rubriche o pedine migliori: stabilizzalo prima di RFT

Quando non usare RFT

Evita l'RFT in queste situazioni:

  • È possibile produrre coppie ingresso-uscita etichettate affidabili a basso costo (SFT è più semplice, economico e stabile)

  • Il divario è la conoscenza o il gergo piuttosto che il comportamento (usa RAG)

  • Il tuo segnale di ricompensa è rumoroso, scarso, facile da giocare, costoso o lento da calcolare (correggi prima il valutatore)

  • Le prestazioni di base sono prossime allo zero (avviate con SFT prima di ottimizzare le preferenze)

  • L'attività ha schemi deterministici, una formattazione rigorosa o un'unica risposta corretta (la SFT o la convalida basata su regole funzionano meglio)

  • I budget limitati in termini di latenza o costi non sono in grado di assorbire i costi aggiuntivi di campionamento o esplorazione richiesti da RFT

  • I vincoli di sicurezza o di policy non sono specificati in modo preciso e applicabili nella ricompensa

Se riesci a indicare «la risposta giusta», usa SFT. Se hai bisogno di nuove conoscenze, usa RAG. Usa RFT solo dopo avere una base solida e una funzione di ricompensa robusta e veloce. hard-to-exploit

Fine-tuning supervisionato (SFT)

La messa a punto supervisionata addestra l'LLM su un set di dati di coppie input-output etichettate dall'uomo per ogni attività. Fornite esempi di richieste (domande, istruzioni e così via) con le risposte corrette o desiderate e continuate ad addestrare il modello sulla base di questi esempi. Il modello regola i propri pesi per ridurre al minimo una perdita supervisionata (in genere entropia incrociata tra le previsioni e i token di output target). Questa è la stessa formazione utilizzata nella maggior parte delle attività di apprendimento automatico supervisionate, applicata per specializzare un LLM.

La SFT modifica il comportamento, non la conoscenza. Non insegna al modello nuovi fatti o gerghi che non aveva appreso durante il pre-allenamento. Insegna al modello come rispondere, non cosa sapere. Se hai bisogno di nuove conoscenze di dominio (come la terminologia interna), usa la generazione aumentata di recupero (RAG) per fornire quel contesto al momento dell'inferenza. SFT aggiunge quindi in primo piano il comportamento desiderato di seguire le istruzioni.

Come funziona

SFT ottimizza LLM riducendo al minimo la perdita media di entropia incrociata sui token di risposta, trattando i token prompt come contesto e mascherandoli dalla perdita. Il modello interiorizza lo stile, la struttura e le regole decisionali dell'obiettivo, imparando a generare il completamento corretto per ogni prompt. Ad esempio, per classificare i documenti in categorie personalizzate, si ottimizza il modello con istruzioni (il testo del documento) e completamenti etichettati (le etichette delle categorie). Ci si allena su queste coppie finché il modello non restituisce l'etichetta corretta per ogni prompt con alta probabilità.

È possibile eseguire SFT con poche centinaia di esempi e scalare fino a poche centinaia di migliaia. I campioni SFT devono essere di alta qualità e allineati direttamente al comportamento del modello desiderato.

Quando usare SFT

Usa SFT quando hai un'attività ben definita con risultati chiari e desiderati. Se potete dichiarare esplicitamente «Dato l'input X, l'output corretto è Y» e raccogliere esempi di tali mappature, la regolazione fine supervisionata è una buona scelta. SFT eccelle in questi scenari:

  • Attività di classificazione strutturate o complesse: classificate documenti o contratti interni in molte categorie personalizzate. Con SFT, il modello impara queste categorie specifiche meglio di quanto lo faccia da solo.

  • Attività di risposta a domande o di trasformazione con risposte note: perfeziona un modello per rispondere alle domande della knowledge base di un'azienda o converti i dati tra formati in cui ogni input ha una risposta corretta.

  • Formattazione e coerenza stilistica: addestrate il modello a rispondere sempre in un determinato formato o tono perfezionando gli esempi del formato o del tono corretti. Ad esempio, la formazione sulle coppie di risposte rapide che dimostrano la voce di un marchio specifica insegna al modello a generare risultati con quello stile. Il comportamento che segue le istruzioni viene spesso insegnato inizialmente tramite SFT sulla base di esempi curati di buon comportamento degli assistenti.

L'SFT è il modo più diretto per insegnare a un LLM una nuova abilità o un nuovo comportamento quando è possibile specificare quale sia il comportamento giusto. Utilizza la comprensione linguistica esistente del modello e la concentra sul tuo compito. Utilizzate SFT quando volete che il modello faccia una cosa specifica e avete o potete creare un set di dati di esempi.

Utilizzate SFT quando potete assemblare coppie di prompt e response di alta qualità che rispecchiano fedelmente il comportamento desiderato. Si adatta a compiti con obiettivi chiari o formati deterministici come schemi, chiamate a funzioni o strumenti e risposte strutturate in cui l'imitazione è un segnale di allenamento appropriato. L'obiettivo è modellare il comportamento: insegnare al modello a trattare i prompt come attività, seguire le istruzioni, adottare politiche di tono e rifiuto e produrre una formattazione coerente. Pianifica almeno centinaia di dimostrazioni, con la qualità, la coerenza e la deduplicazione dei dati più importanti del volume grezzo. Per un aggiornamento semplice ed economico, utilizza metodi efficienti in termini di parametri come Low-Rank Adaptation per addestrare piccoli adattatori lasciando intatta la maggior parte della spina dorsale.

Quando non usare SFT

Non utilizzare SFT quando il divario è la conoscenza piuttosto che il comportamento. Non insegna al modello nuovi fatti, gergo o eventi recenti. In questi casi, utilizza la generazione aumentata con recupero per portare conoscenze esterne all'inferenza. Evita l'SFT quando puoi misurare la qualità ma non riesci a etichettare una sola risposta corretta. Usa la messa a punto dei rinforzi con ricompense verificabili oppure una per ottimizzare direttamente tali ricompense. LLM-as-a-judge Se le tue esigenze o i tuoi contenuti cambiano frequentemente, affidati al recupero e all'uso degli strumenti piuttosto che alla riqualificazione del modello.