Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Distribuisci modelli JumpStart utilizzando Amazon Studio SageMaker
I passaggi seguenti illustrano come distribuire modelli JumpStart utilizzando Amazon SageMaker Studio.
Prerequisiti
Verifica di aver configurato le funzionalità di inferenza sui tuoi SageMaker HyperPod cluster Amazon. Per ulteriori informazioni, consulta Configurazione dei HyperPod cluster per l'implementazione dei modelli.
Crea una distribuzione HyperPod
-
In Amazon SageMaker Studio, apri la pagina di JumpStartdestinazione dal riquadro di navigazione a sinistra.
-
In Tutti i modelli pubblici, scegli un modello da implementare.
Nota
Se hai selezionato un modello gated, dovrai accettare il Contratto di licenza con l’utente finale (EULA).
-
Scegli SageMaker HyperPod.
-
In Impostazioni di distribuzione, JumpStart consiglierà un'istanza per la distribuzione. Se necessario, puoi modificare queste impostazioni.
-
Se modifichi il tipo di istanza, assicurati che sia compatibile con il HyperPod cluster scelto. Se non ci sono istanze compatibili, dovrai selezionare un nuovo HyperPod cluster o contattare l'amministratore per aggiungere istanze compatibili al cluster.
-
Per dare priorità all’implementazione del modello, installa il componente aggiuntivo per la governance delle attività, crea allocazioni delle risorse di calcolo e imposta le classificazioni delle attività per la policy del cluster. Una volta completata questa operazione, dovrebbe apparire un’opzione per selezionare una priorità per l’implementazione del modello, che può essere utilizzata per la prelazione di altre implementazioni e attività nel cluster.
-
Inserisci il namespace al quale l’amministratore ti ha fornito l’accesso. Potrebbe essere necessario contattare direttamente l’amministratore per ottenere il namespace esatto. Una volta fornito un namespace valido, il pulsante Implementa dovrebbe diventare attivo per implementare il modello.
-
Se il tipo di istanza è partizionato (abilitato per MIG), seleziona un tipo di partizione GPU.
-
Se desideri abilitare il routing L2 KVCache o Intelligent per velocizzare l'inferenza LLM, abilitalo. Per impostazione predefinita, è abilitata solo la cache L1 KV. Per maggiori dettagli sul KVCache routing intelligente, consulta SageMaker HyperPod la sezione Implementazione del modello.
-
-
Scegli Implementa e attendi la creazione dell’endpoint.
-
Dopo aver creato l’endpoint, seleziona Testa inferenza.
Modifica una distribuzione HyperPod
-
In Amazon SageMaker Studio, seleziona Compute e poi HyperPodCluster dal riquadro di navigazione a sinistra.
-
In Implementazioni, scegli la distribuzione del HyperPod cluster che desideri modificare.
-
Dall’icona con tre puntini verticali (⋮), scegli Modifica.
-
In Impostazioni di implementazione, puoi abilitare o disabilitare il dimensionamento automatico e modificare il numero massimo di repliche.
-
Seleziona Salva.
-
Lo stato diventa Aggiornamento in corso. Quando viene visualizzato di nuovo lo stato In servizio, le modifiche sono complete e viene visualizzato un messaggio di conferma.
Eliminare una distribuzione HyperPod
-
In Amazon SageMaker Studio, seleziona Compute e poi HyperPodCluster dal riquadro di navigazione a sinistra.
-
In Implementazioni, scegli la distribuzione del HyperPod cluster che desideri modificare.
-
Dall’icona con tre puntini verticali (⋮), scegli Elimina.
-
Nella finestra Elimina HyperPod distribuzione, seleziona la casella di controllo.
-
Scegli Elimina.
-
Lo stato diventa Eliminazione in corso. Una volta eliminata la HyperPod distribuzione, verrà visualizzato un messaggio di conferma.