Configurazione del modello di scalabilità automatica con la console

Per configurare il dimensionamento automatico per un modello (console)

Apri la console Amazon SageMaker AI all'indirizzo https://console.aws.amazon.com/sagemaker/.
Nel riquadro di navigazione, scegli Inferenza, quindi Endpoint.
Scegli il tuo endpoint e quindi, per Impostazioni del runtime dell’endpoint, scegli la variante.
Selezionare Configura dimensionamento automatico.
Nella pagina Configura la scalabilità automatica della variante, per Scalabilità automatica della variante, procedi come segue:
1. Per Conteggio istanze minimo, digita il numero minimo di istanze che la policy di dimensionamento deve mantenere. Almeno un'istanza è necessaria.
2. Per Conteggio istanze massimo, digita il numero massimo di istanze che la policy di dimensionamento deve mantenere.
Per quanto riguarda Built-in la politica di scalabilità, procedi come segue:
1. Per Parametro target, SageMakerVariantInvocationsPerInstance viene selezionato automaticamente per la metrica e non può essere modificato.
2. Per Valore target, digita il numero medio di invocazioni per istanza al minuto per il modello. Per determinare questo valore, segui le linee guida in Test di caricamento.
3. (Facoltativo) Per il Scale-in raffreddamento (secondi) e il Scale-out raffreddamento (secondi), inserite la quantità di tempo, in secondi, per ogni periodo di raffreddamento.
4. (Facoltativo) Seleziona Disabilita il dimensionamento verticale se non desideri che il dimensionamento automatico termini l’istanza quando il traffico diminuisce.
Scegli Save (Salva).

Questa procedura registra un modello come un target scalabile con Application Auto Scaling. Quando registri un modello, Application Auto Scaling esegue controlli di convalida per garantire che siano rispettate le seguenti condizioni:

Il modello esiste
Le autorizzazioni sono sufficienti
Non stai registrando una variante con un’istanza che è una istanza a prestazioni espandibili, ad esempio T2

Nota
SageMaker L'intelligenza artificiale non supporta la scalabilità automatica per istanze espandibili come T2, perché consentono già una maggiore capacità con carichi di lavoro aumentati. Per informazioni sulle istanze a prestazioni espandibili, consulta Tipi di istanze Amazon EC2.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Prerequisiti

Registrazione di un modello

Configurazione del modello di scalabilità automatica con la console

Per configurare il dimensionamento automatico per un modello (console)

Nota