Scalare un endpoint a zero istanze

In fase di configurazione del dimensionamento automatico per un endpoint, è possibile consentire al processo di ridurre orizzontalmente a zero il numero di istanze in servizio. In questo modo, risparmi sui costi nei periodi in cui l’endpoint non gestisce richieste di inferenza e quindi non richiede istanze attive.

Tuttavia, dopo la riduzione orizzontale a zero istanze, l’endpoint non può rispondere alle richieste di inferenza in entrata finché non esegue il provisioning di almeno un’istanza. Per automatizzare il processo di provisioning, è possibile creare una policy di dimensionamento per fasi con Application Auto Scaling. Quindi, assegni la politica a un CloudWatch allarme Amazon.

Dopo aver impostato la policy di dimensionamento per fasi e l’allarme, l’endpoint esegue automaticamente il provisioning di un’istanza subito dopo aver ricevuto una richiesta di inferenza a cui non può rispondere. Il processo di provisioning richiede diversi minuti. Durante questo periodo, qualsiasi tentativo di invocare l’endpoint genera un errore.

Le procedure seguenti spiegano come impostare il dimensionamento automatico per un endpoint in modo che esegua una riduzione orizzontale fino a zero istanze e un aumento orizzontale a partire da zero istanze. Le procedure utilizzano comandi con l’ AWS CLI.

Prima di iniziare

Prima che l’endpoint possa essere ridotto orizzontalmente fino a zero istanze e aumentato orizzontalmente da partire da zero istanze, deve soddisfare i seguenti requisiti:

È in servizio.
Ospita uno o più componenti di inferenza. Un endpoint può essere ridotto orizzontalmente fino a zero istanze e aumentato orizzontalmente da partire da zero istanze solo se ospita componenti di inferenza.

Per informazioni sull'hosting dei componenti di inferenza sugli endpoint SageMaker AI, consulta. Implementazione di modelli per l’inferenza in tempo reale
Nella configurazione dell’endpoint, per l’oggetto ManagedInstanceScaling di variante di produzione, il parametro MinInstanceCount è stato impostato su 0.

Per informazioni di riferimento su questo parametro, vedere. ProductionVariantManagedInstanceScaling

Per consentire a un endpoint di scalare fino a zero istanze (AWS CLI)

Per ogni componente di inferenza ospitato dall’endpoint, procedi come segue:

Registra il componente di inferenza come destinazione scalabile. Una volta registrato, imposta la capacità minima su 0, come mostrato dal comando seguente:
```
aws application-autoscaling register-scalable-target \
  --service-namespace sagemaker \
  --resource-id inference-component/inference-component-name \
  --scalable-dimension sagemaker:inference-component:DesiredCopyCount \
  --min-capacity 0 \
  --max-capacity n
```
In questo esempio, sostituiscilo inference-component-name con il nome del tuo componente di inferenza. nSostituitelo con il numero massimo di copie del componente di inferenza da fornire durante la scalabilità orizzontale.

Per ulteriori informazioni su questo comando e su ciascuno dei relativi parametri, consulta register-scalable-target nella nella documentazione di riferimento dei comandi della AWS CLI .
Applica una policy con monitoraggio delle destinazioni al componente di inferenza, come mostrato dal comando seguente:
```
aws application-autoscaling put-scaling-policy \
  --policy-name my-scaling-policy \
  --policy-type TargetTrackingScaling \
  --resource-id inference-component/inference-component-name \
  --service-namespace sagemaker \
  --scalable-dimension sagemaker:inference-component:DesiredCopyCount \
  --target-tracking-scaling-policy-configuration file://config.json
```
In questo esempio, sostituiscilo inference-component-name con il nome del componente di inferenza.

Nell’esempio, il file config.json contiene una configurazione della policy con monitoraggio delle destinazioni, come la seguente:
```
{
  "PredefinedMetricSpecification": {
      "PredefinedMetricType": "SageMakerInferenceComponentInvocationsPerCopy"
  },
  "TargetValue": 1,
  "ScaleInCooldown": 300,
  "ScaleOutCooldown": 300
}
```
Per ulteriori esempi di configurazioni di policy con monitoraggio, consulta Definizione di una policy di dimensionamento.

Per ulteriori informazioni su questo comando e su ciascuno dei relativi parametri, consulta put-scaling-policy nella nella documentazione di riferimento dei comandi della AWS CLI .

Per consentire a un endpoint di scalare orizzontalmente partendo da zero istanze (AWS CLI)

Per ogni componente di inferenza ospitato dall’endpoint, procedi come segue:

Applica una policy di dimensionamento per fasi al componente di inferenza, come mostrato dal comando seguente:
```
aws application-autoscaling put-scaling-policy \
  --policy-name my-scaling-policy \
  --policy-type StepScaling \
  --resource-id inference-component/inference-component-name \
  --service-namespace sagemaker \
  --scalable-dimension sagemaker:inference-component:DesiredCopyCount \
  --step-scaling-policy-configuration file://config.json
```
In questo esempio, sostituiscila my-scaling-policy con un nome univoco per la tua politica. Sostituiscilo inference-component-name con il nome del tuo componente di inferenza.

Nell’esempio, il file config.json contiene una configurazione della policy di dimensionamento per fasi, come la seguente:
```
{
    "AdjustmentType": "ChangeInCapacity",
    "MetricAggregationType": "Maximum",
    "Cooldown": 60,
    "StepAdjustments":
      [
         {
           "MetricIntervalLowerBound": 0,
           "ScalingAdjustment": 1
         }
      ]
}
```
Quando viene attivata questa politica di scalabilità in fasi, l' SageMaker intelligenza artificiale fornisce le istanze necessarie per supportare le copie dei componenti di inferenza.

Dopo aver creato la policy di dimensionamento per fasi, prendi nota del relativo nome della risorsa Amazon (ARN). Nella fase successiva è necessario l'ARN per l' CloudWatch allarme.

Per ulteriori informazioni sulle policy di dimensionamento per fasi, consulta Policy di dimensionamento per fasi nella Guida per l’utente di Application Auto Scaling.
Crea un CloudWatch allarme e assegnagli la politica di scalabilità dei passaggi, come mostrato nell'esempio seguente:
```
aws cloudwatch put-metric-alarm \
--alarm-actions step-scaling-policy-arn \
--alarm-description "Alarm when SM IC endpoint invoked that has 0 instances." \
--alarm-name ic-step-scaling-alarm \
--comparison-operator GreaterThanThreshold  \
--datapoints-to-alarm 1 \
--dimensions "Name=InferenceComponentName,Value=inference-component-name" \
--evaluation-periods 1 \
--metric-name NoCapacityInvocationFailures \
--namespace AWS/SageMaker \
--period 60 \
--statistic Sum \
--threshold 1
```
In questo esempio, sostituisci step-scaling-policy-arn con l'ARN della tua politica di scalabilità graduale. ic-step-scaling-alarmSostituiscilo con un nome a tua scelta. Sostituisci inference-component-name con il nome del tuo componente di inferenza.

Questo esempio imposta il --metric-name parametro su. NoCapacityInvocationFailures SageMaker L'intelligenza artificiale emette questa metrica quando un endpoint riceve una richiesta di inferenza, ma l'endpoint non ha istanze attive per soddisfare la richiesta. Quando si verifica questo evento, l’allarme avvia la policy di dimensionamento per fasi della fase precedente.

Per ulteriori informazioni su questo comando e su ciascuno dei relativi parametri, consulta put-metric-alarm nella nella documentazione di riferimento dei comandi della AWS CLI .

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Controllare lo stato di un’attività di dimensionamento

Test di caricamento