Configurazione del modello di scalabilità automatica con la console - Amazon SageMaker AI

Configurazione del modello di scalabilità automatica con la console

Per configurare il dimensionamento automatico per un modello (console)
  1. Apri la console di Amazon SageMaker AI all’indirizzo https://console.aws.amazon.com/sagemaker/.

  2. Nel riquadro di navigazione, scegli Inferenza, quindi Endpoint.

  3. Scegli il tuo endpoint e quindi, per Impostazioni del runtime dell’endpoint, scegli la variante.

  4. Selezionare Configura dimensionamento automatico.

  5. Nella pagina Configura la scalabilità automatica della variante, per Scalabilità automatica della variante, procedi come segue:

    1. Per Conteggio istanze minimo, digita il numero minimo di istanze che la policy di dimensionamento deve mantenere. Almeno un'istanza è necessaria.

    2. Per Conteggio istanze massimo, digita il numero massimo di istanze che la policy di dimensionamento deve mantenere.

  6. Per Policy di dimensionamento integrata, procedi come segue:

    1. Per Parametro target, SageMakerVariantInvocationsPerInstance viene selezionato automaticamente per la metrica e non può essere modificato.

    2. Per Valore target, digita il numero medio di invocazioni per istanza al minuto per il modello. Per determinare questo valore, segui le linee guida in Test di caricamento.

    3. (Facoltativo) Per Disattivazione dimensionamento verticale (secondi) e Disattivazione dimensionamento orizzontale (secondi), inserisci la quantità di tempo, in secondi, per ogni tempo di raffreddamento.

    4. (Facoltativo) Seleziona Disabilita il dimensionamento verticale se non desideri che il dimensionamento automatico termini l’istanza quando il traffico diminuisce.

  7. Selezionare Salva.

Questa procedura registra un modello come un target scalabile con Application Auto Scaling. Quando registri un modello, Application Auto Scaling esegue controlli di convalida per garantire che siano rispettate le seguenti condizioni:

  • Il modello esiste

  • Le autorizzazioni sono sufficienti

  • Non stai registrando una variante con un’istanza che è una istanza a prestazioni espandibili, ad esempio T2

    Nota

    SageMaker AI non supporta il dimensionamento automatico per le istanze ottimizzabili come T2, perché consentono già una capacità aumentata in carichi di lavoro aumentati. Per informazioni sulle istanze a prestazioni espandibili, consulta Tipi di istanze Amazon EC2.