Trabajos del cuaderno de SageMaker - Amazon SageMaker AI

Trabajos del cuaderno de SageMaker

Puede usar Amazon SageMaker AI para crear, entrenar e implementar modelos de machine learning de forma interactiva desde su cuaderno de Jupyter en cualquier entorno de JupyterLab. Sin embargo, hay varios escenarios en los que puede que desee ejecutar su cuaderno como un trabajo programado y no interactivo. Por ejemplo, es posible que desee crear informes de auditoría periódicos en los que se analicen todos los trabajos de entrenamiento que se realicen durante un período de tiempo determinado y se analice el valor empresarial de implementar esos modelos en la producción. O tal vez desee ampliar un trabajo de ingeniería de características después de probar la lógica de transformación de datos en un pequeño subconjunto de datos. Los casos de uso habituales incluyen:

  • Programar trabajos para supervisar la desviación del modelo

  • Explorar el espacio de parámetros para obtener mejores modelos

En estos escenarios, puede utilizar los trabajos del cuaderno de SageMaker AI para crear un trabajo no interactivo (que SageMaker AI ejecuta como un trabajo de entrenamiento subyacente) que se ejecute bajo demanda o de forma programada. Los trabajos del cuaderno de SageMaker proporcionan una interfaz de usuario intuitiva para que pueda programar sus trabajos directamente desde JupyterLab al seleccionar el widget de trabajos del cuaderno ( Blue icon of a calendar with a checkmark, representing a scheduled task or event. ) en su cuaderno. También puede programar sus trabajos mediante el SageMaker AI Python SDK, que ofrece la flexibilidad de programar varios trabajos de cuaderno en un flujo de trabajo de canalización. Puede ejecutar varios cuadernos en paralelo y parametrizar las celdas de los cuadernos para personalizar los parámetros de entrada.

Esta característica utiliza los servicios de Amazon EventBridge, entrenamiento de SageMaker y Canalizaciones y está disponible para su uso en su cuaderno de Jupyter en cualquiera de los siguientes entornos:

  • Instancias de Studio, Studio Lab, Studio Classic o cuaderno

  • Configuración local, como su equipo local, donde ejecuta JupyterLab

Requisitos previos

Para programar un trabajo de cuaderno, asegúrese de que cumple los siguientes criterios:

  • Asegúrese de que su cuaderno de Jupyter y cualquier script de inicialización o inicio sean independientes con respecto al código y los paquetes de software. De lo contrario, el trabajo no interactivo podría incurrir en errores.

  • Compruebe Restricciones y consideraciones para asegurarse de que ha configurado correctamente su cuaderno de Jupyter, la configuración de red y la configuración del contenedor.

  • Asegúrese de que su cuaderno pueda acceder a los recursos externos necesarios, como los clústeres de Amazon EMR.

  • Si está configurando trabajos del cuaderno en un cuaderno de Jupyter local, complete la instalación. Para obtener instrucciones, consulte Guía de instalación.

  • Si se conecta a un clúster de Amazon EMR de su cuaderno y desea parametrizar el comando de conexión de Amazon EMR, debe aplicar una solución alternativa mediante variables de entorno para transferir los parámetros. Para obtener más información, consulte Conexión a un clúster de Amazon EMR desde su cuaderno.

  • Si se conecta a un clúster de Amazon EMR mediante la autenticación básica de Kerberos, LDAP o HTTP, debe utilizar AWS Secrets Manager para pasar sus credenciales de seguridad al comando de conexión de Amazon EMR. Para obtener más información, consulte Conexión a un clúster de Amazon EMR desde su cuaderno.

  • De forma opcional, si desea que la interfaz de usuario cargue previamente un script para que se ejecute al iniciar el cuaderno, el administrador debe instalarlo con una configuración de ciclo de vida (LCC). Para obtener información sobre cómo utilizar un script de LCC, consulte Customize a Notebook Instance Using a Lifecycle Configuration Script.