Guardrail di implementazione per l’aggiornamento dei modelli in produzione - Amazon SageMaker AI

Guardrail di implementazione per l’aggiornamento dei modelli in produzione

I guardrail di implementazione sono un insieme di opzioni di implementazione dei modelli in Amazon SageMaker AI Inference per aggiornare i modelli di machine learning in produzione. Utilizzando le opzioni di implementazione completamente gestite, è possibile controllare il passaggio dal modello corrente in produzione a uno nuovo. Le modalità di spostamento del traffico nelle implementazioni blu/verde, come canary e lineare, offrono un controllo granulare sul processo di spostamento del traffico dal modello attuale a quello nuovo nel corso dell'aggiornamento. Sono inoltre disponibili misure di protezione integrate, come i rollback automatici, che aiutano a individuare tempestivamente i problemi e ad adottare automaticamente azioni correttive prima che abbiano un impatto significativo sulla produzione.

I guardrail di implementazione offrono i seguenti vantaggi:

  • Sicurezza dell'implementazione durante l'aggiornamento degli ambienti di produzione. Un aggiornamento regressivo a un ambiente di produzione può causare tempi di inattività non pianificati e un impatto aziendale, come una maggiore latenza del modello e tassi di errore elevati. I guardrail di implementazione aiutano a mitigare tali rischi fornendo le migliori pratiche e barriere di sicurezza operative integrate.

  • Implementazione completamente gestita. SageMaker AI si occupa della configurazione e dell’orchestrazione di queste implementazioni e le integra con i meccanismi di aggiornamento degli endpoint. Non è necessario creare e mantenere meccanismi di orchestrazione, monitoraggio o rollback. Puoi sfruttare SageMaker AI per configurare e orchestrare queste implementazioni e concentrarti sull’utilizzo del machine learning per le tue applicazioni.

  • Visibilità. Puoi monitorare lo stato di avanzamento della distribuzione tramite l'API DescribeEndpoint o tramite Eventi Amazon CloudWatch (per gli endpoint supportati). Per ulteriori informazioni sugli eventi in SageMaker AI, consulta la sezione relativa alla modifica dello stato di implementazione degli endpoint in Eventi che Amazon SageMaker AI invia ad Amazon EventBridge. Tieni presente che se il tuo endpoint utilizza una delle funzionalità della pagina Esclusioni, non puoi utilizzare Eventi CloudWatch.

Nota

I guardrail di implementazione si applicano solo ai tipi di endpoint Inferenza asincrona e Inferenza in tempo reale.

Come iniziare

Supportiamo due tipi di implementazioni per aggiornare i modelli in produzione: implementazioni blu/verdi e implementazioni continue.

  • Distribuzioni blu/verdi: puoi spostare il traffico dal tuo vecchio parco istanze (il parco istanze blu) a un nuovo parco istanze (parco istanze verde) con gli aggiornamenti. Le implementazioni blu/verde offrono diverse modalità di spostamento del traffico. Una modalità di spostamento del traffico è una configurazione che specifica in che modo SageMaker AI indirizza il traffico degli endpoint verso un nuovo parco contenente gli aggiornamenti. Le seguenti modalità di spostamento del traffico offrono diversi livelli di controllo sul processo di aggiornamento degli endpoint:

    • Spostamento del traffico tutto in una sola volta sposta tutto il traffico degli endpoint dal parco istanze blu a quello verde. Una volta che il traffico si sposta verso il parco istanze verde, gli allarmi Amazon CloudWatch preimpostati iniziano a monitorare il parco istanze verde per un determinato periodo di tempo (il periodo di baking). Se durante il periodo di incorporamento non scatta alcun allarme, SageMaker AI interrompe il parco blu.

    • Spostamento del traffico canary sposta una piccola parte del traffico (un canary) verso il parco istanze verde e la monitora per un periodo di baking. Se il canary ha successo sul parco verde, SageMaker AI sposta il resto del traffico dal parco blu al parco verde prima di terminare il parco blu.

    • Utilizzare lo spostamento del traffico lineare offre una personalizzazione ancora maggiore rispetto al numero di fasi di spostamento del traffico e alla percentuale di traffico da spostare per ciascuna fase. Mentre lo spostamento canary consente di spostare il traffico in due fasi, lo spostamento lineare lo estende a n fasi distanziate in modo lineare.

  • Utilizzare implementazioni in sequenza: puoi aggiornare l’endpoint man mano che SageMaker AI alloca in modo incrementale la capacità e sposta il traffico verso un nuovo parco in fasi di una dimensione del batch specificata. Le istanze del nuovo parco vengono aggiornate con la nuova configurazione di implementazione e, se nessun allarme CloudWatch si attiva durante il periodo di incorporamento, SageMaker AI ripulisce le istanze del parco precedente. Questa opzione offre un controllo granulare sul numero di istanze o sulla percentuale di capacità spostata durante ogni fase.

Puoi creare e gestire la distribuzione tramite l'API e i comandi UpdateEndpoint e CreateEndpoint SageMaker e AWS Command Line Interface. Consulta le pagine di distribuzione individuali per maggiori dettagli su come configurare la distribuzione. Tieni presente che se l'endpoint utilizza una delle funzionalità elencate nella pagina Esclusioni, non puoi utilizzare i guardrail di distribuzione.

Per seguire esempi guidati che mostrano come utilizzare i guardrail di implementazione, guarda i nostri esempi di notebook Jupyter per le modalità di spostamento del traffico canary e lineare.