Crea un processo di test di carico Ottieni i risultati dei test di carico

Esegui un test di carico personalizzato

I test di carico di Amazon SageMaker Inference Recommender eseguono benchmark approfonditi in base ai requisiti di produzione per la latenza e il throughput, i modelli di traffico personalizzati e gli endpoint serverless o le istanze in tempo reale (fino a 10) selezionate dall'utente.

Le seguenti sezioni mostrano come creare, descrivere e arrestare un test di carico a livello di programmazione utilizzando AWS SDK per Python (Boto3) e l’AWS CLI oppure in modo interattivo utilizzando Amazon SageMaker Studio Classic o la console di SageMaker AI.

Crea un processo di test di carico

Crea un test di carico a livello di programmazione utilizzando AWS SDK per Python (Boto3), con l’AWS CLI, oppure in modo interattivo utilizzando Studio Classic o la console di SageMaker AI. Come per le raccomandazioni di inferenza del suggeritore di inferenza, specifica un nome di processo per il test di carico, un ARN del ruolo IAM AWS, una configurazione di input e l'ARN del pacchetto di modelli da quando hai registrato il modello nel registro dei modelli. I test di carico richiedono anche che sia specificato un modello di traffico e le condizioni di arresto.

AWS SDK per Python (Boto3)

Utilizza l'API CreateInferenceRecommendationsJob per creare un test di carico del suggeritore di inferenza. Specifica Advanced per il campo JobType e indica:

Un nome di processo per il test di carico (JobName). Il nome del processo deve essere univoco all'interno della regione AWS e nell'account AWS.
Il nome della risorsa Amazon (ARN) di un ruolo IAM che consente al suggeritore di inferenza di eseguire attività per tuo conto. Definiscilo per il campo RoleArn.
Un dizionario di configurazione endpoint (InputConfig) in cui specifichi le seguenti informazioni:
- Per TrafficPattern, specifica il modello di traffico a fasi o a scalini. Con il modello di traffico a fasi, i nuovi utenti vengono generati ogni minuto alla velocità specificata. Con il modello di traffico a scalini, i nuovi utenti vengono generati a intervalli di tempo (o fasi) alla frequenza specificata. Seleziona una delle seguenti opzioni:
  - Per TrafficType, specificare PHASES. Quindi, per la matrice Phases, specifica InitialNumberOfUsers (con quanti utenti simultanei iniziare, con un minimo di 1 e un massimo di 3), SpawnRate (il numero di utenti da generare in un minuto per una fase specifica di test di carico, con un minimo di 0 e un massimo di 3) e DurationInSeconds (quanto deve essere lunga la fase di traffico, con un minimo di 120 e un massimo di 3600).
  - Per TrafficType, specificare STAIRS. Quindi, per la matrice Stairs, specifica DurationInSeconds (quanto deve essere lunga la fase di traffico, con un minimo di 120 e un massimo di 3600), NumberOfSteps (quanti intervalli vengono utilizzati durante la fase) e UsersPerStep (quanti utenti vengono aggiunti durante ogni intervallo). Si noti che la lunghezza di ogni fase è il valore di DurationInSeconds / NumberOfSteps. Ad esempio, se DurationInSeconds è 600 e si specificano 5 fasi, ogni fase dura 120 secondi.
    
    Nota
    Un utente è definito come un attore generato dal sistema che viene eseguito in un ciclo e invoca le richieste a un endpoint come parte del suggeritore di inferenza. Per un container XGBoost tipico in esecuzione su un'istanza ml.c5.large, gli endpoint possono raggiungere le 30.000 invocazioni al minuto (500 tps) con solo 15-20 utenti.
- Per ResourceLimit, specifica MaxNumberOfTests (il numero massimo di test di carico di benchmarking per un processo del suggeritore di inferenza, con un minimo di 1 e un massimo di 10) e MaxParallelOfTests (il numero massimo di test di carico di benchmarking paralleli per un processo del suggeritore di inferenza, con un minimo di 1 e un massimo di 10).
- Per EndpointConfigurations, puoi specificare uno dei seguenti elementi:
  - Il campo InstanceType, in cui specifichi il tipo di istanza su cui desideri eseguire i test di carico.
  - ServerlessConfig, in cui si specifichi i valori ideali per MaxConcurrency e MemorySizeInMB per un endpoint serverless. Per ulteriori informazioni, consulta la documentazione per inferenze serverless.
Un dizionario delle condizioni di arresto (StoppingConditions), in cui il processo del suggeritore di inferenza si interrompe qualora fosse soddisfatta una condizione qualsiasi. Per questo esempio, specifica i seguenti campi nel dizionario:
- Per MaxInvocations, specifica il numero massimo di richieste al minuto previsto per l'endpoint, con un minimo di 1 e un massimo di 30.000.
- Per ModelLatencyThresholds, specifica Percentile (la soglia del percentile di latenza del modello) e ValueInMilliseconds (il valore del percentile di latenza del modello in millisecondi).
- (Facoltativo) Per FlatInvocations, è possibile specificare se continuare il test di carico quando la velocità TPS (invocazioni al minuto) smette di aumentare. Una velocità TPS costante indica generalmente che l'endpoint ha raggiunto la capacità. Tuttavia, potresti voler continuare a monitorare l'endpoint in condizioni di piena capacità. Per continuare il test di carico quando ciò accade, specifica questo valore come Continue. In caso contrario, il valore predefinito è Stop.


# Create a low-level SageMaker service client.
import boto3
aws_region=<INSERT>
sagemaker_client=boto3.client('sagemaker', region=aws_region) 
                
# Provide a name to your recommendation based on load testing
load_test_job_name="<INSERT>"

# Provide the name of the sagemaker instance type
instance_type="<INSERT>"

# Provide the IAM Role that gives SageMaker permission to access AWS services 
role_arn='arn:aws:iam::<account>:role/*'

# Provide your model package ARN that was created when you registered your 
# model with Model Registry
model_package_arn='arn:aws:sagemaker:<region>:<account>:role/*'

sagemaker_client.create_inference_recommendations_job(
                        JobName=load_test_job_name,
                        JobType="Advanced",
                        RoleArn=role_arn,
                        InputConfig={
                            'ModelPackageVersionArn': model_package_arn,
                            "JobDurationInSeconds": 7200,
                            'TrafficPattern' : {
                                # Replace PHASES with STAIRS to use the stairs traffic pattern
                                'TrafficType': 'PHASES',
                                'Phases': [
                                    {
                                        'InitialNumberOfUsers': 1,
                                        'SpawnRate': 1,
                                        'DurationInSeconds': 120
                                    },
                                    {
                                        'InitialNumberOfUsers': 1,
                                        'SpawnRate': 1,
                                        'DurationInSeconds': 120
                                    }
                                ]
                                # Uncomment this section and comment out the Phases object above to use the stairs traffic pattern
                                # 'Stairs' : {
                                #   'DurationInSeconds': 240,
                                #   'NumberOfSteps': 2,
                                #   'UsersPerStep': 2
                                # }
                            },
                            'ResourceLimit': {
                                        'MaxNumberOfTests': 10,
                                        'MaxParallelOfTests': 3
                                },
                            "EndpointConfigurations" : [{
                                        'InstanceType': 'ml.c5.xlarge'
                                    },
                                    {
                                        'InstanceType': 'ml.m5.xlarge'
                                    },
                                    {
                                        'InstanceType': 'ml.r5.xlarge'
                                    }]
                                    # Uncomment the ServerlessConfig and comment out the InstanceType field if you want recommendations for a serverless endpoint
                                    # "ServerlessConfig": {
                                    #     "MaxConcurrency": value, 
                                    #     "MemorySizeInMB": value 
                                    # }
                        },
                        StoppingConditions={
                            'MaxInvocations': 1000,
                            'ModelLatencyThresholds':[{
                                'Percentile': 'P95', 
                                'ValueInMilliseconds': 100
                            }],
                            # Change 'Stop' to 'Continue' to let the load test continue if invocations flatten 
                            'FlatInvocations': 'Stop'
                        }
                )

Consulta la guida Amazon SageMaker API Reference per un elenco completo degli argomenti facoltativi e obbligatori che è possibile passare a CreateInferenceRecommendationsJob.

AWS CLI

Utilizza l'API create-inference-recommendations-job per creare un test di carico del suggeritore di inferenza. Specifica Advanced per il campo JobType e indica:

Un nome di processo per il test di carico (job-name). Il nome del processo deve essere univoco all'interno della regione AWS e nell'account AWS.
Il nome della risorsa Amazon (ARN) di un ruolo IAM che consente al suggeritore di inferenza di eseguire attività per tuo conto. Definiscilo per il campo role-arn.
Un dizionario di configurazione endpoint (input-config) in cui specifichi le seguenti informazioni:
- Per TrafficPattern, specifica il modello di traffico a fasi o a scalini. Con il modello di traffico a fasi, i nuovi utenti vengono generati ogni minuto alla velocità specificata. Con il modello di traffico a scalini, i nuovi utenti vengono generati a intervalli di tempo (o fasi) alla frequenza specificata. Seleziona una delle seguenti opzioni:
  - Per TrafficType, specificare PHASES. Quindi, per la matrice Phases, specifica InitialNumberOfUsers (con quanti utenti simultanei iniziare, con un minimo di 1 e un massimo di 3), SpawnRate (il numero di utenti da generare in un minuto per una fase specifica di test di carico, con un minimo di 0 e un massimo di 3) e DurationInSeconds (quanto deve essere lunga la fase di traffico, con un minimo di 120 e un massimo di 3600).
  - Per TrafficType, specificare STAIRS. Quindi, per la matrice Stairs, specifica DurationInSeconds (quanto deve essere lunga la fase di traffico, con un minimo di 120 e un massimo di 3600), NumberOfSteps (quanti intervalli vengono utilizzati durante la fase) e UsersPerStep (quanti utenti vengono aggiunti durante ogni intervallo). Si noti che la lunghezza di ogni fase è il valore di DurationInSeconds / NumberOfSteps. Ad esempio, se DurationInSeconds è 600 e si specificano 5 fasi, ogni fase dura 120 secondi.
    
    Nota
    Un utente è definito come un attore generato dal sistema che viene eseguito in un ciclo e invoca le richieste a un endpoint come parte del suggeritore di inferenza. Per un container XGBoost tipico in esecuzione su un'istanza ml.c5.large, gli endpoint possono raggiungere le 30.000 invocazioni al minuto (500 tps) con solo 15-20 utenti.
- Per ResourceLimit, specifica MaxNumberOfTests (il numero massimo di test di carico di benchmarking per un processo del suggeritore di inferenza, con un minimo di 1 e un massimo di 10) e MaxParallelOfTests (il numero massimo di test di carico di benchmarking paralleli per un processo del suggeritore di inferenza, con un minimo di 1 e un massimo di 10).
- Per EndpointConfigurations, puoi specificare uno dei seguenti elementi:
  - Il campo InstanceType, in cui specifichi il tipo di istanza su cui desideri eseguire i test di carico.
  - ServerlessConfig, in cui si specifichi i valori ideali per MaxConcurrency e MemorySizeInMB per un endpoint serverless.
Un dizionario delle condizioni di arresto (stopping-conditions), in cui il processo del suggeritore di inferenza si interrompe qualora fosse soddisfatta una condizione qualsiasi. Per questo esempio, specifica i seguenti campi nel dizionario:
- Per MaxInvocations, specifica il numero massimo di richieste al minuto previsto per l'endpoint, con un minimo di 1 e un massimo di 30.000.
- Per ModelLatencyThresholds, specifica Percentile (la soglia del percentile di latenza del modello) e ValueInMilliseconds (il valore del percentile di latenza del modello in millisecondi).
- (Facoltativo) Per FlatInvocations, è possibile specificare se continuare il test di carico quando la velocità TPS (invocazioni al minuto) smette di aumentare. Una velocità TPS costante indica generalmente che l'endpoint ha raggiunto la capacità. Tuttavia, potresti voler continuare a monitorare l'endpoint in condizioni di piena capacità. Per continuare il test di carico quando ciò accade, specifica questo valore come Continue. In caso contrario, il valore predefinito è Stop.


aws sagemaker create-inference-recommendations-job\
    --region <region>\
    --job-name <job-name>\
    --job-type ADVANCED\
    --role-arn arn:aws:iam::<account>:role/*\
    --input-config \"{
        \"ModelPackageVersionArn\": \"arn:aws:sagemaker:<region>:<account>:role/*\",
        \"JobDurationInSeconds\": 7200,                                
        \"TrafficPattern\" : {
                # Replace PHASES with STAIRS to use the stairs traffic pattern
                \"TrafficType\": \"PHASES\",
                \"Phases\": [
                    {
                        \"InitialNumberOfUsers\": 1,
                        \"SpawnRate\": 60,
                        \"DurationInSeconds\": 300
                    }
                ]
                # Uncomment this section and comment out the Phases object above to use the stairs traffic pattern
                # 'Stairs' : {
                #   'DurationInSeconds': 240,
                #   'NumberOfSteps': 2,
                #   'UsersPerStep': 2
                # }
            },
            \"ResourceLimit\": {
                \"MaxNumberOfTests\": 10,
                \"MaxParallelOfTests\": 3
            },
            \"EndpointConfigurations\" : [
                {
                    \"InstanceType\": \"ml.c5.xlarge\"
                },
                {
                    \"InstanceType\": \"ml.m5.xlarge\"
                },
                {
                    \"InstanceType\": \"ml.r5.xlarge\"
                }
                # Use the ServerlessConfig and leave out the InstanceType fields if you want recommendations for a serverless endpoint
                # \"ServerlessConfig\": {
                #     \"MaxConcurrency\": value, 
                #     \"MemorySizeInMB\": value 
                # }
            ]
        }\"
    --stopping-conditions \"{
        \"MaxInvocations\": 1000,
        \"ModelLatencyThresholds\":[
                {
                    \"Percentile\": \"P95\", 
                    \"ValueInMilliseconds\": 100
                }
        ],
        # Change 'Stop' to 'Continue' to let the load test continue if invocations flatten 
        \"FlatInvocations\": \"Stop\"
    }\"

Amazon SageMaker Studio Classic

Crea un test di carico con Studio Classic.

Nell’applicazione Studio Classic scegli l’icona home ( ).
Nella barra laterale di sinistra di Studio Classic scegli Implementazioni.
Scegli Suggeritore di inferenza dall'elenco a discesa.
Scegli Crea un processo di raccomandazione di inferenza. Si apre una nuova scheda intitolata Crea un processo di raccomandazione di inferenza.
Seleziona il nome del tuo gruppo di modelli dal campo Gruppo di modelli del menu a discesa. L’elenco include tutti i gruppi di modelli registrati nel registro dei modelli nell’account, inclusi i modelli registrati al di fuori di Studio Classic.
Seleziona una versione del modello dal campo Versione del modello del menu a discesa.
Scegli Continua.
Indica un nome per il processo nel campo Nome.
(Facoltativo) Fornisci una descrizione del processo nel campo Descrizione.
Seleziona un ruolo IAM che concede a Inference Recommender l’autorizzazione per accedere ai servizi AWS. A tale scopo, è possibile creare un ruolo e collegare la policy gestita IAM AmazonSageMakerFullAccess oppure è possibile lasciare che sia Studio Classic a creare un ruolo.
Scegli Condizioni di arresto per espandere i campi di input disponibili. Fornisci una serie di condizioni per interrompere una raccomandazione di implementazione.
1. Specifica il numero massimo di richieste al minuto previsto per l'endpoint nel campo Numero massimo di invocazioni al minuto.
2. Specifica la soglia di latenza del modello in microsecondi nel campo Soglia di latenza del modello. La soglia di latenza del modello rappresenta l'intervallo di tempo impiegato da un modello per rispondere, come mostrato dal suggeritore di inferenza. Questo intervallo include il tempo per le comunicazioni locali impiegato per inviare la richiesta e recuperare la risposta dal container del modello e il tempo richiesto per completare l'inferenza nel container.
Scegli Modello di traffico per espandere i campi di input disponibili.
1. Imposta il numero iniziale di utenti virtuali specificando un numero intero nel campo Numero iniziale di utenti.
2. Fornisci un numero intero per il campo Velocità di generazione. La velocità di generazione imposta il numero di utenti creati al secondo.
3. Imposta la durata della fase in secondi specificando un numero intero nel campo Durata.
4. (Facoltativo) Aggiungi modelli di traffico aggiuntivi. A tale scopo, seleziona Aggiungi.
Seleziona l'impostazione Aggiuntivo per visualizzare il campo Durata massima del test. Specifica, in secondi, il tempo massimo che un test può impiegare durante un processo. I nuovi processi non vengono pianificati dopo la durata definita. Ciò contribuisce a garantire che i processi in corso non vengano interrotti e che vengano visualizzati solo i processi completati.
Scegli Continua.
Seleziona Istanze selezionate.
Nel campo Istanze per il benchmarking, seleziona Aggiungi istanze da testare. Seleziona fino a 10 istanze che il suggeritore di inferenza deve utilizzare per i test di carico.
Seleziona Impostazioni aggiuntive.
1. Fornisci un numero intero che stabilisca un limite massimo al numero di test che un processo può eseguire per il campo Numero massimo di test. Tieni presente che ogni configurazione dell'endpoint comporta un nuovo test di carico.
2. Fornisci un numero intero per il campo di test Massimo paralleli. Questa impostazione definisce un limite superiore al numero di test di carico che possono essere eseguiti in parallelo.
Scegli Invia.

Il test di carico può richiedere fino a 2 ore.

avvertimento
Non chiudere questa scheda. Se si chiude questa scheda, si annulla il processo di test di carico del suggeritore di inferenza.

SageMaker AI console

Crea un test di carico personalizzato tramite la console di SageMaker AI effettuando le seguenti operazioni:

Vai alla console di SageMaker AI all’indirizzo https://console.aws.amazon.com/sagemaker/.
Nel riquadro di navigazione di sinistra, seleziona Inferenza e poi Suggeritore di inferenza.
Nella pagina dei processi del suggeritore di inferenza, seleziona Crea processo.
Per fase 1, configurazione di modelli, procedi come segue:
1. Per Tipo di processo, seleziona Processo del suggeritore avanzato.
2. Se stai utilizzando un modello registrato nel registro dei modelli SageMaker AI, attiva la funzionalità Scegli un modello dal registro del modello ed esegui le seguenti operazioni:
  1. Dall’elenco a discesa Gruppo di modelli seleziona il gruppo di modelli in SageMaker AI Model Registry in cui si trova il modello.
  2. Dall'elenco a discesa Versione del modello, seleziona la versione desiderata del modello.
3. Se stai utilizzando un modello creato in SageMaker AI, disattiva la funzionalità Scegli un modello dal registro del modello ed esegui le seguenti operazioni:
  1. Nel campo Nome modello inserisci il nome del tuo modello SageMaker AI.
4. Per Ruolo IAM, è possibile selezionare un ruolo IAM AWS esistente che dispone delle autorizzazioni necessarie per creare un processo di raccomandazione delle istanze. In alternativa, se non disponi di un ruolo esistente, è possibile scegliere Crea un nuovo ruolo per aprire il pop-up di creazione del ruolo e SageMaker AI aggiunge le autorizzazioni necessarie al nuovo ruolo creato.
5. Per Bucket S3 per l’esecuzione del benchmark del payload, inserisci il percorso Amazon S3 all’archivio del payload di esempio, che dovrebbe contenere i file di payload di esempio utilizzati da Inference Recommender per eseguire il benchmark del tuo modello in base a diversi tipi di istanze.
6. Per tipo di contenuto di payload, inserisci i tipi MIME per i dati del payload di esempio.
7. Per Modello di traffico, configura le fasi per il test di carico effettuando le seguenti operazioni:
  1. Per Numero iniziale di utenti, specifica da quanti utenti simultanei vuoi iniziare (con un minimo di 1 e un massimo di 3).
  2. Per Frequenza di generazione, specifica il numero di utenti da generare in un minuto per la fase (con un minimo di 0 e un massimo di 3).
  3. Per Durata (secondi), specifica quanto deve essere bassa la fase di traffico in secondi (con un minimo di 120 e un massimo di 3600).
8. (Facoltativo) Se hai disattivato l’interruttore Scegli un modello dal registro del modello e hai specificato un modello SageMaker AI, per la configurazione del container, procedi come segue:
  1. Per l’elenco a discesa Dominio, seleziona il dominio di machine learning del modello, ad esempio visione artificiale, elaborazione del linguaggio naturale o machine learning.
  2. Per l'elenco a discesa Framework, seleziona il framework del tuo container, ad esempio TensorFlow o XGBoost.
  3. Per Versione del framework, inserisci la versione del framework dell'immagine del container.
  4. Per l'elenco a discesa Nome del modello più vicino, seleziona il modello pre-addestrato che più si avvicina al tuo.
  5. Nell'elenco a discesa Attività, seleziona l'attività di machine learning svolta dal modello, ad esempio la classificazione o la regressione delle immagini.
9. (Facoltativo) Per la compilazione del modello con SageMaker Neo, è possibile configurare il processo di raccomandazione per un modello che è stato compilato utilizzando SageMaker Neo. Per configurazione dell'input dei dati, inserisci la forma dei dati di input corretta per il tuo modello in un formato simile a {'input':[1,1024,1024,3]}.
10. Scegli Next (Successivo).
Per fase 2, istanze e parametri di ambiente, effettua le seguenti operazioni:
1. Per Seleziona le istanze per l'esecuzione dei benchmark, seleziona fino a 8 tipi di istanze da sottoporre a benchmark.
2. (Facoltativo) Per Intervalli dei parametri dell'ambiente, puoi specificare i parametri dell'ambiente che contribuiscono a ottimizzare il modello. Specifica i parametri come le coppie Chiave e Valore.
3. Scegli Next (Successivo).
Per fase 3, parametri del processo, effettua le seguenti operazioni:
1. (Facoltativo) Nel campo Nome del processo, immetti un nome per il tuo processo di suggerimento sull’istanza. Quando crei il processo, SageMaker AI aggiunge un timestamp alla fine di questo nome.
2. (Facoltativo) Per il campo Descrizione processo, immetti una descrizione per il processo.
3. (Facoltativo) Per l'elenco a discesa Chiave di crittografia, seleziona una chiave AWS KMS per nome o inserisci il relativo ARN per crittografare i dati.
4. (Facoltativo) Per Numero massimo di test, inserisci il numero di test che desideri eseguire durante il processo di raccomandazione.
5. (Facoltativo) Per Test paralleli massimi, inserisci il numero di test paralleli che desideri eseguire durante il processo di raccomandazione.
6. (Per Durate massime dei test, inserisci il numero massimo di secondi per cui desideri che ciascun test venga eseguito.
7. Per Numero massimo di invocazioni al minuto, inserisci il numero massimo di richieste al minuto che l'endpoint può raggiungere prima dell'interruzione del processo di raccomandazione. Dopo aver raggiunto questo limite, SageMaker AI termina il processo.
8. Per Soglia di latenza del modello P99 (ms), inserisci il percentile di latenza del modello in millisecondi.
9. Scegli Next (Successivo).
Per fase 4, esamina il processo, esamina le configurazioni e quindi seleziona Invia.

Ottieni i risultati dei test di carico

È possibile raccogliere a livello di programmazione le metriche di tutti i test di carico una volta eseguiti i test di carico con AWS SDK per Python (Boto3), l’AWS CLI, Studio Classic o la console di SageMaker AI.

AWS SDK per Python (Boto3)

Raccogli i parametri con l’API DescribeInferenceRecommendationsJob. Specifica il nome del processo del test di carico per il campo JobName:


load_test_response = sagemaker_client.describe_inference_recommendations_job(
                                                        JobName=load_test_job_name
                                                        )

Stampa l'oggetto risposta.


load_test_response['Status']

Questo esempio restituisce una risposta JSON simile alla seguente: Questo esempio mostra i tipi di istanza consigliati per l’inferenza in tempo reale (per un esempio che mostra raccomandazioni di inferenza Serverless, consulta l’esempio successivo).


{
    'JobName': 'job-name', 
    'JobDescription': 'job-description', 
    'JobType': 'Advanced', 
    'JobArn': 'arn:aws:sagemaker:region:account-id:inference-recommendations-job/resource-id', 
    'Status': 'COMPLETED', 
    'CreationTime': datetime.datetime(2021, 10, 26, 19, 38, 30, 957000, tzinfo=tzlocal()), 
    'LastModifiedTime': datetime.datetime(2021, 10, 26, 19, 46, 31, 399000, tzinfo=tzlocal()), 
    'InputConfig': {
        'ModelPackageVersionArn': 'arn:aws:sagemaker:region:account-id:model-package/resource-id', 
        'JobDurationInSeconds': 7200, 
        'TrafficPattern': {
            'TrafficType': 'PHASES'
            }, 
        'ResourceLimit': {
            'MaxNumberOfTests': 100, 
            'MaxParallelOfTests': 100
            }, 
        'EndpointConfigurations': [{
            'InstanceType': 'ml.c5d.xlarge'
            }]
        }, 
    'StoppingConditions': {
        'MaxInvocations': 1000, 
        'ModelLatencyThresholds': [{
            'Percentile': 'P95', 
            'ValueInMilliseconds': 100}
            ]}, 
    'InferenceRecommendations': [{
        'Metrics': {
            'CostPerHour': 0.6899999976158142, 
            'CostPerInference': 1.0332434612791985e-05, 
            'MaximumInvocations': 1113, 
            'ModelLatency': 100000
            }, 
    'EndpointConfiguration': {
        'EndpointName': 'endpoint-name', 
        'VariantName': 'variant-name', 
        'InstanceType': 'ml.c5d.xlarge', 
        'InitialInstanceCount': 3
        }, 
    'ModelConfiguration': {
        'Compiled': False, 
        'EnvironmentParameters': []
        }
    }], 
    'ResponseMetadata': {
        'RequestId': 'request-id', 
        'HTTPStatusCode': 200, 
        'HTTPHeaders': {
            'x-amzn-requestid': 'x-amzn-requestid', 
            'content-type': 'content-type', 
            'content-length': '1199', 
            'date': 'Tue, 26 Oct 2021 19:57:42 GMT'
            }, 
        'RetryAttempts': 0}
    }

Le prime nuove righe forniscono informazioni sullo stesso processo di test di carico. Ciò include il nome del processo, l'ARN del ruolo e l'ora di creazione ed eliminazione.

Il dizionario InferenceRecommendations contiene un elenco di suggerimenti sull’inferenza di Inference Recommender.

Il dizionario annidato EndpointConfiguration contiene il consiglio sul tipo di istanza (InstanceType) insieme al nome dell'endpoint e della variante (un modello di machine learning AWS implementato) utilizzati durante il processo di raccomandazione. Puoi utilizzare l'endpoint e il nome della variante per il monitoraggio in Eventi Amazon CloudWatch. Per ulteriori informazioni, consulta Metriche di Amazon SageMaker AI in Amazon CloudWatch.

Il dizionario annidato EndpointConfiguration contiene anche la raccomandazione del conteggio di istanze (InitialInstanceCount). Si tratta del numero di istanze da fornire nell'endpoint per soddisfare MaxInvocations specificato in StoppingConditions. Ad esempio, se InstanceType è ml.m5.large e InitialInstanceCount è 2, dovresti effettuare il provisioning di 2 istanze ml.m5.large per l'endpoint in modo che possa gestire il TPS specificato nella condizione di arresto MaxInvocations.

Il dizionario annidato Metrics contiene informazioni sul costo orario stimato (CostPerHour) per il tuo endpoint in tempo reale in dollari statunitensi, il costo per inferenza stimato (CostPerInference) per il tuo endpoint in tempo reale, il numero massimo di richieste InvokeEndpoint inviate all’endpoint e la latenza del modello (ModelLatency), ovvero l’intervallo di tempo (in microsecondi) impiegato dal modello per rispondere a SageMaker AI. La latenza del modello include il tempo per le comunicazioni locali impiegato per inviare la richiesta e recuperare la risposta dal container di un modello e il tempo richiesto per completare l’inferenza nel container.

L'esempio seguente mostra la parte InferenceRecommendations della risposta per un processo di test di carico configurato per restituire raccomandazioni di inferenza serverless:


"InferenceRecommendations": [ 
      { 
         "EndpointConfiguration": { 
            "EndpointName": "value",
            "InitialInstanceCount": value,
            "InstanceType": "value",
            "VariantName": "value",
            "ServerlessConfig": {
                "MaxConcurrency": value,
                "MemorySizeInMb": value
            }
         },
         "InvocationEndTime": value,
         "InvocationStartTime": value,
         "Metrics": { 
            "CostPerHour": value,
            "CostPerInference": value,
            "CpuUtilization": value,
            "MaxInvocations": value,
            "MemoryUtilization": value,
            "ModelLatency": value,
            "ModelSetupTime": value
         },
         "ModelConfiguration": { 
            "Compiled": "False",
            "EnvironmentParameters": [],
            "InferenceSpecificationName": "value"
         },
         "RecommendationId": "value"
      }
   ]

È possibile interpretare i consigli per l’inferenza serverless in modo simile ai risultati per l’inferenza in tempo reale, ad eccezione di ServerlessConfig, che indica i valori specificati per MaxConcurrency e MemorySizeInMB durante la configurazione del test di carico. Le raccomandazioni serverless misurano anche il parametro ModelSetupTime, che misura (in microsecondi) il tempo necessario per avviare le risorse di calcolo su un endpoint serverless. Per ulteriori informazioni sulla configurazione di endpoint serverless, consulta la documentazione per inferenze serverless.

AWS CLI

Raccogli i parametri con l'API describe-inference-recommendations-job. Specifica il nome del processo del test di carico per il flag job-name:


aws sagemaker describe-inference-recommendations-job --job-name <job-name>

Questo restituisce una risposta simile al seguente esempio. Questo esempio mostra i tipi di istanza consigliati per l’inferenza in tempo reale (per un esempio che mostra raccomandazioni di inferenza Serverless, consulta l’esempio successivo).


{
    'JobName': 'job-name', 
    'JobDescription': 'job-description', 
    'JobType': 'Advanced', 
    'JobArn': 'arn:aws:sagemaker:region:account-id:inference-recommendations-job/resource-id', 
    'Status': 'COMPLETED', 
    'CreationTime': datetime.datetime(2021, 10, 26, 19, 38, 30, 957000, tzinfo=tzlocal()), 
    'LastModifiedTime': datetime.datetime(2021, 10, 26, 19, 46, 31, 399000, tzinfo=tzlocal()), 
    'InputConfig': {
        'ModelPackageVersionArn': 'arn:aws:sagemaker:region:account-id:model-package/resource-id', 
        'JobDurationInSeconds': 7200, 
        'TrafficPattern': {
            'TrafficType': 'PHASES'
            }, 
        'ResourceLimit': {
            'MaxNumberOfTests': 100, 
            'MaxParallelOfTests': 100
            }, 
        'EndpointConfigurations': [{
            'InstanceType': 'ml.c5d.xlarge'
            }]
        }, 
    'StoppingConditions': {
        'MaxInvocations': 1000, 
        'ModelLatencyThresholds': [{
            'Percentile': 'P95', 
            'ValueInMilliseconds': 100
            }]
        }, 
    'InferenceRecommendations': [{
        'Metrics': {
        'CostPerHour': 0.6899999976158142, 
        'CostPerInference': 1.0332434612791985e-05, 
        'MaximumInvocations': 1113, 
        'ModelLatency': 100000
        }, 
        'EndpointConfiguration': {
            'EndpointName': 'endpoint-name', 
            'VariantName': 'variant-name', 
            'InstanceType': 'ml.c5d.xlarge', 
            'InitialInstanceCount': 3
            }, 
        'ModelConfiguration': {
            'Compiled': False, 
            'EnvironmentParameters': []
            }
        }], 
    'ResponseMetadata': {
        'RequestId': 'request-id', 
        'HTTPStatusCode': 200, 
        'HTTPHeaders': {
            'x-amzn-requestid': 'x-amzn-requestid', 
            'content-type': 'content-type', 
            'content-length': '1199', 
            'date': 'Tue, 26 Oct 2021 19:57:42 GMT'
            }, 
        'RetryAttempts': 0
        }
    }

Le prime nuove righe forniscono informazioni sullo stesso processo di test di carico. Ciò include il nome del processo, l'ARN del ruolo e l'ora di creazione ed eliminazione.

Il dizionario InferenceRecommendations contiene un elenco di suggerimenti sull’inferenza di Inference Recommender.

L'esempio seguente mostra la parte InferenceRecommendations della risposta per un processo di test di carico configurato per restituire raccomandazioni di inferenza serverless:


"InferenceRecommendations": [ 
      { 
         "EndpointConfiguration": { 
            "EndpointName": "value",
            "InitialInstanceCount": value,
            "InstanceType": "value",
            "VariantName": "value",
            "ServerlessConfig": {
                "MaxConcurrency": value,
                "MemorySizeInMb": value
            }
         },
         "InvocationEndTime": value,
         "InvocationStartTime": value,
         "Metrics": { 
            "CostPerHour": value,
            "CostPerInference": value,
            "CpuUtilization": value,
            "MaxInvocations": value,
            "MemoryUtilization": value,
            "ModelLatency": value,
            "ModelSetupTime": value
         },
         "ModelConfiguration": { 
            "Compiled": "False",
            "EnvironmentParameters": [],
            "InferenceSpecificationName": "value"
         },
         "RecommendationId": "value"
      }
   ]

È possibile interpretare i consigli per l'inferenza serverless in modo simile ai risultati per l'inferenza in tempo reale, ad eccezione di ServerlessConfig, che indica i valori specificati per MaxConcurrency e MemorySizeInMB durante la configurazione del test di carico. Le raccomandazioni serverless misurano anche il parametro ModelSetupTime, che misura (in microsecondi) il tempo necessario per avviare le risorse informatiche su un endpoint serverless. Per ulteriori informazioni sulla configurazione di endpoint serverless, consulta la documentazione per inferenze serverless.

Amazon SageMaker Studio Classic

Le raccomandazioni sono riportate in una nuova scheda chiamata Raccomandazioni di inferenza all’interno di Studio Classic. Può essere necessario fino a 2 ore prima che i risultati vengano visualizzati. Questa scheda contiene le collone Risultati e Dettagli.

La colonna Dettagli fornisce informazioni sul processo dei test di carico, ad esempio il nome assegnato al processo del test di carico, quando il processo è stato creato (Ora di creazione) e altro ancora. Contiene inoltre informazioni sulle Impostazioni, come il numero massimo di invocazioni avvenute al minuto e informazioni sugli Amazon Resource Name utilizzati.

La colonna Risultati fornisce una finestra riguardante gli obiettivi di implementazione e le raccomandazioni SageMaker AI in cui è possibile modificare l’ordine di visualizzazione dei risultati in base all’importanza dell’implementazione. Sono disponibili tre menu a discesa in cui è possibile indicare il livello di importanza del costo, della latenza e del throughput per il proprio caso d'uso. Puoi impostare il livello di importanza di ogni obiettivo (costo, latenza e throughput): importanza minima, importanza bassa, importanza moderata, importanza elevata o importanza massima.

In base alle selezioni di importanza per ogni obiettivo, il suggeritore di inferenza mostra la propria raccomandazione principale nel campo raccomandazione di SageMaker sulla destra del pannello, insieme al costo orario stimato e alla richiesta di inferenza. Fornisce inoltre informazioni sulla latenza del modello prevista, sul numero massimo di invocazioni e sul numero di istanze.

Oltre ai consigli principali visualizzati, è anche possibile visualizzare le stesse informazioni riportate per tutte le istanze testate dal suggeritore di inferenza nella sezione Tutte le esecuzioni.

SageMaker AI console

È possibile visualizzare i risultati dei processi di test di carico personalizzati nella console di SageMaker AI effettuando le seguenti operazioni:

Vai alla console di SageMaker AI all’indirizzo https://console.aws.amazon.com/sagemaker/.
Nel riquadro di navigazione di sinistra, seleziona Inferenza e poi Suggeritore di inferenza.
Nella pagina dei processi di raccomandazione delle inferenze, scegli il nome del tuo processo di raccomandazione delle inferenze.

Nella pagina dei dettagli del processo è possibile visualizzare le raccomandazioni di inferenza, ovvero i tipi di istanza consigliati da SageMaker AI per il tuo modello, come mostrato nello screenshot seguente.

Screenshot dell’elenco di raccomandazioni di inferenza nella pagina dei dettagli del processo nella console di SageMaker AI.

In questa sezione, è possibile confrontare i tipi di istanza in base a vari fattori, come la latenza del modello, il costo all’ora, il costo per inferenza e le invocazioni al minuto.

In questa pagina, è possibile visualizzare anche le configurazioni specificate per il processo. Nella sezione Monitoraggio, è possibile visualizzare i parametri di Amazon CloudWatch registrati per ogni tipo di istanza. Per ulteriori informazioni sull'interpretazione di questi parametri, consulta Interpretazione dei risultati.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Ottieni raccomandazioni sulle policy di dimensionamento automatico

Interrompi il test di carico

Esegui un test di carico personalizzato

Crea un processo di test di carico

Nota

Nota

avvertimento

Ottieni i risultati dei test di carico