Impostazione del comportamento di memorizzazione nella cache del modello di endpoint multi-modello di SageMaker AI - Amazon SageMaker AI

Impostazione del comportamento di memorizzazione nella cache del modello di endpoint multi-modello di SageMaker AI

Per impostazione predefinita, gli endpoint a più modelli memorizzano nella memoria (CPU o GPU, a seconda che si disponga di istanze supportate da CPU o GPU) e su disco per fornire inferenze a bassa latenza. I modelli memorizzati nella cache vengono scaricati e/o eliminati dal disco solo quando un container esaurisce la memoria o lo spazio su disco per ospitare un nuovo modello di destinazione.

È possibile modificare il comportamento di memorizzazione nella cache di un endpoint a più modelli e abilitare o disabilitare esplicitamente la memorizzazione nella cache del modello impostando il parametro ModelCacheSetting quando si chiama create_model.

Consigliamo di impostare il valore del parametro ModelCacheSetting su Disabled per i casi d'uso che non traggono vantaggio dalla memorizzazione nella cache dei modelli. Ad esempio, quando è necessario fornire un numero elevato di modelli dall'endpoint, ma ogni modello viene richiamato una sola volta (o molto raramente). In questi casi d'uso, l'impostazione del valore del parametro ModelCacheSetting a Disabled consente transazioni al secondo (TPS) più elevate per le richieste invoke_endpoint rispetto alla modalità di memorizzazione nella cache predefinita. Un TPS più elevato in questi casi d’uso è dovuto al fatto che SageMaker AI effettua le seguenti operazioni dopo la richiesta invoke_endpoint:

  • Scarica in modo asincrono il modello dalla memoria e lo elimina dal disco immediatamente dopo la sua chiamata.

  • Consente una maggiore concomitanza per il download e il caricamento dei modelli nel container di inferenza. Per entrambi gli endpoint supportati da CPU e GPU, la concomitanza è un fattore del numero di vCPU dell'istanza del container.

Per linee guida sulla scelta di un tipo di istanza SageMaker AI ML per un endpoint multi-modello, consulta Raccomandazioni sulle istanze per le distribuzioni di endpoint a più modelli.