

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Endpoint multi-container con scalabilità automatica
<a name="multi-container-auto-scaling"></a>

Se desideri configurare la scalabilità automatica per un endpoint multi-container utilizzando il parametro `InvocationsPerInstance`, ti consigliamo che il modello in ogni container mostri un utilizzo e una latenza della CPU simili su ogni richiesta di inferenza. Questa soluzione è consigliata perché se il traffico verso l'endpoint multi-container passa da un modello a basso utilizzo della CPU a un modello ad alto utilizzo della CPU, ma il volume complessivo delle chiamate rimane lo stesso, l'endpoint non si scalerà orizzontalmente e potrebbero non esserci abbastanza istanze per gestire tutte le richieste verso il modello ad alto utilizzo della CPU. Per informazioni sugli endpoint di scalabilità automatica, consulta [Ridimensionamento automatico dei modelli di SageMaker intelligenza artificiale di Amazon](endpoint-auto-scaling.md).