Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Implemente modelos a JumpStart partir de Amazon SageMaker Studio
En los siguientes pasos, se explica cómo implementar modelos JumpStart con Amazon SageMaker Studio.
Requisitos previos
Compruebe que ha configurado las capacidades de inferencia en sus SageMaker HyperPod clústeres de Amazon. Para obtener más información, consulte Configuración de los HyperPod clústeres para la implementación de modelos.
Cree un despliegue HyperPod
-
En Amazon SageMaker Studio, abre la página de JumpStartdestino desde el panel de navegación izquierdo.
-
En Todos los modelos públicos, elija el modelo que desee implementar.
nota
Si ha seleccionado un modelo cerrado, tendrá que aceptar el Acuerdo de licencia de usuario final (EULA).
-
Elija SageMaker HyperPod.
-
En Configuración de implementación, JumpStart recomendará una instancia para la implementación. Puede modificar la configuración si es necesario.
-
Si modificas el tipo de instancia, asegúrate de que sea compatible con el HyperPod clúster elegido. Si no hay instancias compatibles, tendrás que seleccionar un HyperPod clúster nuevo o ponerte en contacto con tu administrador para añadir instancias compatibles al clúster.
-
Para priorizar la implementación del modelo, instale el complemento de gobernanza de tareas, cree asignaciones de recursos de computación y configure las clasificaciones de las tareas para la política de clústeres. Una vez hecho esto, debería aparecer una opción para seleccionar una prioridad para la implementación del modelo que se puede usar como prioridad para otras implementaciones y tareas del clúster.
-
Introduzca el espacio de nombres al que le ha dado acceso su administrador. Puede que tenga que contactar directamente con el administrador para obtener el espacio de nombres exacto. Después de proporcionar un espacio de nombres válido, se debe activar el botón Implementar para implementar el modelo.
-
Si tu tipo de instancia está particionado (compatible con MIG), selecciona un tipo de partición de GPU.
-
Si quieres habilitar el enrutamiento inteligente KVCache o de nivel 2 para acelerar la inferencia de LLM, actívalos. De forma predeterminada, solo la caché de nivel 1 KB está habilitada. Para obtener más información sobre el KVCache enrutamiento inteligente, consulte el SageMaker HyperPod modelo de implementación.
-
-
Elija Implementar y espere a que se cree el Punto de conexión.
-
Una vez creado el Punto de conexión, seleccione Probar inferencia.
Edite una HyperPod implementación
-
En Amazon SageMaker Studio, selecciona Compute y, a continuación, HyperPodclústeres en el panel de navegación izquierdo.
-
En Implementaciones, elige la implementación del HyperPod clúster que deseas modificar.
-
En el icono de puntos suspensivos verticales (⋮), seleccione Editar.
-
En Configuración de la implementación, puede activar o desactivar Escalado automático y cambiar Número máximo de réplicas.
-
Seleccione Guardar.
-
El Estado cambiará a Actualización. Cuando vuelva a En servicio, los cambios se completarán y verá un mensaje que los confirma.
Elimine una implementación HyperPod
-
En Amazon SageMaker Studio, selecciona Compute y, a continuación, HyperPodclústeres en el panel de navegación izquierdo.
-
En Implementaciones, elige la implementación del HyperPod clúster que deseas modificar.
-
En el icono de puntos suspensivos verticales (⋮), elija Eliminar.
-
En la ventana Eliminar HyperPod despliegue, seleccione la casilla de verificación.
-
Elija Eliminar.
-
El Estado cambiará a Eliminando. Una vez que se haya eliminado la HyperPod implementación, verás un mensaje que la confirma.