Trabajo con activos (guía del usuario) - Amazon SageMaker AI

Trabajo con activos (guía del usuario)

Utilice Activos de SageMaker para colaborar sin problemas en proyectos de machine learning con otras personas de su organización. Con Activos de SageMaker, usted y sus colaboradores crearán y compartirán modelos y tablas de datos entre sí. En Activos de SageMaker, estos modelos y tablas de datos se conocen como activos.

Activos de SageMaker es una característica de Amazon SageMaker Studio. Usted o su administrador crean un entorno de Studio dentro de un proyecto de Amazon DataZone. Para obtener más información sobre cómo configurar Amazon DataZone, consulte Configuración de Activos de SageMaker (guía del administrador).

Los activos son activos de ML o activos de datos. Los activos de ML son metadatos que apuntan a lo siguiente:

  • Grupos de características del Almacén de características

  • Grupos de modelos de SageMaker AI

Los grupos de modelos y los grupos de características subyacentes son los orígenes de datos. Si actualiza un grupo de características o un grupo de modelos, el activo del grupo de modelos o el grupo de características se actualiza ese mismo día.

Los activos de datos son metadatos que apuntan a lo siguiente:

  • Tablas de Amazon Redshift

  • Tablas de AWS Glue

En el caso de los activos de datos, el origen de datos es el mecanismo que extrae los metadatos de las tablas de AWS Glue y de las tablas de Amazon Redshift para llevarlos al activo. Por ejemplo, un origen de datos extrae los metadatos de una tabla de AWS Glue y los coloca en el activo para esa tabla.

Puede hacer que un activo sea visible para todos los miembros de su organización publicándolo. Las personas pueden revisar los metadatos del activo y solicitar acceso. Si les da acceso, tendrán acceso al origen de los datos o la tabla de machine learning subyacente.

Es probable que su administrador le haya dado acceso a los grupos de características, los grupos de modelos y las tablas. De no ser así, consulte la información de Configuración de Activos de SageMaker (guía del administrador) para empezar a utilizarlos.

En las siguientes secciones, se proporciona información de referencia para los grupos de características y los grupos de modelos.

El Almacén de características de Amazon SageMaker proporciona una ubicación centralizada para ayudarle a almacenar y administrar sus características. Se trata de un repositorio de alto rendimiento que puede utilizar para la ingeniería de características.

En el Almacén de características, las características se almacenan en un grupo de características. Un grupo de características es un conjunto de características relacionadas con un proyecto en el que está trabajando. Por ejemplo, si está trabajando en un proyecto relacionado con la predicción de los precios de viviendas, un grupo de características puede incluir características como la ubicación o el número de dormitorios.

Para obtener más información sobre cómo utilizar los grupos de características para agilizar el proceso de ingeniería de características, consulte Creación, almacenamiento y uso compartido de características con el Almacén de características.

Puede utilizar los grupos de modelos de SageMaker AI en el Registro de modelos de SageMaker para organizar y administrar diferentes versiones de sus modelos. Puede comparar las distintas versiones de los modelos para ver cuál funciona mejor para su caso de uso. Para obtener más información acerca del Registro de modelos de SageMaker, consulte Implementación del registro de modelos con el registro de modelos.

A continuación encontrará información general sobre Amazon Redshift y AWS Glue.

Amazon Redshift es un servicio de almacenamiento de datos a gran escala que proporciona un rendimiento de consultas rápido en conjuntos de datos de gran tamaño. Para obtener más información sobre Amazon Redshift, consulte Amazon Redshift sin servidor.

AWS Glue es un servicio de extracción, transformación y carga (ETL) que puede utilizar para simplificar el proceso de preparación de datos. Para obtener más información acerca del AWS Glue, consulte ¿Qué es el AWS Glue?

Puede utilizar el editor de SQL para conectar AWS Glue con las bases de datos de Amazon Redshift y ejecutar consultas. Puede compartir cualquier tabla que cree en el editor en Activos de SageMaker. Para obtener más información, consulte Preparación de los datos con SQL en Studio.

Terminología y conceptos

Antes de empezar a utilizar Activos de SageMaker, le resultará útil familiarizarse con la terminología y los conceptos siguientes:

  • Activo: metadatos que apuntan a las tablas de datos o modelos que va a compartir. Puede solicitar acceso a un activo que es propiedad de otra persona o compartir su activo con otros. Usted y sus compañeros de equipo acceden al activo y a la tabla de datos subyacente o al modelo asociado a él.

  • Activos suscritos: para solicitar acceso a un activo, debe enviar una solicitud de suscripción. Si se aprueba su solicitud, el activo aparece en los activos suscritos.

  • Activos propios: los activos que ha compartido con sus compañeros de equipo.

  • Catálogo de activos: los activos que has compartido en toda la organización.

Paso 1: acceso a Activos de SageMaker

Acceda a Activos de SageMaker para ver sus activos y compartirlos con otras personas. Utilice la siguiente información para ayudarle a comenzar a utilizarlo.

Puede acceder a Activos de SageMaker desde un proyecto dentro de un dominio de Amazon DataZone. Un proyecto es una colaboración entre usted y los miembros de su equipo. Dentro del proyecto, usted y los demás miembros del proyecto tienen acceso a los activos que ustedes y los demás miembros del equipo crean en el catálogo del inventario. Puede publicar los activos en el catálogo publicado para que sean visibles para otras personas de su organización.

Esas personas pueden solicitar acceso a su activo. Si les proporciona acceso, podrán acceder al origen de los datos actualizado. Por ejemplo, si una persona se suscribe a una tabla de AWS Glue que usted actualiza, podrá acceder a la tabla de AWS Glue actualizada en tiempo real.

Utilice el siguiente procedimiento para acceder a Activos de SageMaker.

Acceso a Activos de SageMaker
  1. Abra la consola de Amazon DataZone.

  2. Seleccione Ver dominios.

  3. Junto al dominio que contiene su proyecto, elija Abrir el portal de datos.

  4. En Herramientas analíticas, elija SageMaker AI Studio.

  5. Elija Abrir Amazon SageMaker AI.

  6. Elija Activos.

Los activos que se han compartido con usted aparecen en Activos suscritos. Los activos que usted y los miembros de su proyecto crean se incluyen en Activos propios. Los activos que usted y los demás miembros de su organización han publicado se encuentran en el Catálogo de activos.

Paso 2: uso compartido de activos y administración del acceso a ellos

Después de crear modelos de machine learning, grupos de características o tablas de datos, puede hacerlos visibles para las personas que colaboran con usted en su proyecto o en su organización en general. Puede responder a las solicitudes de acceso al activo. Si aprueba la solicitud de una persona, esta podrá modificar el origen de los datos subyacentes del activo.

Cuando comparte un activo, tiene dos opciones:

  • Publicarlo en el catálogo de activos: haga que el activo sea visible para todos los miembros de su organización

  • Publicarlo en el inventario: haga que el activo sea visible para todos los que trabajan en su proyecto

Si ha publicado su activo en el catálogo de activos, las personas de su organización pueden encontrarlo en el catálogo de activos. Pueden ver los metadatos de su activo y decidir si desean solicitar acceso a ellos. Si aprueba su solicitud, tendrán acceso al origen de los datos subyacentes.

Si publica en el inventario, usted y los demás miembros del proyecto pueden acceder al activo sin necesidad de realizar ninguna acción adicional.

Los activos publicados en el inventario solo aparecen en Activos propios. Los activos publicados en el catálogo aparecen en Activos propios y Catálogo de activos.

Al publicar una tabla de datos, debe crear un origen de datos que extraiga los metadatos de la tabla de AWS Glue subyacente o de la tabla de Amazon Redshift para colocarlos en el activo. Utilice los siguientes procedimientos para publicar una tabla de AWS Glue o Amazon Redshift.

Publish an AWS Glue table

Para publicar un activo para una tabla de AWS Glue, debe crear un origen de datos para él y publicarlo. Un origen de datos es el mecanismo que extrae los metadatos de la tabla de AWS Glue para colocarlos en el activo.

Utilice los siguientes procedimientos para publicar una tabla de AWS Glue.

Publicación de una tabla de AWS Glue
  1. Vaya hasta la página de inicio de Activos de SageMaker.

  2. Seleccione Activos propios.

  3. Elija Ver orígenes de datos.

  4. Elija Crear origen de datos.

  5. En Nombre, especifique un nombre para el origen de datos.

  6. En Descripción, proporcione una descripción.

  7. En Tipo, seleccione AWS Glue.

  8. En Selección de datos, seleccione la base de datos que contiene la tabla de AWS Glue.

  9. En Criterios de selección de tablas, especifique el nombre de la tabla.

    nota

    Aunque puede especificar más de una tabla, le recomendamos encarecidamente que proporcione solo un nombre de tabla.

  10. Elija Siguiente.

    • En Publicar un activo en el catálogo, seleccione para publicarlo en el catálogo de activos.

    • En Publicar un activo en el catálogo, seleccione No para publicarlo en el catálogo de activos.

  11. Elija Siguiente.

  12. En Detalles del activo, elija Ejecutar según una programación o Ejecutar bajo demanda para determinar cómo se incorporan los metadatos de la tabla de AWS Glue al activo.

  13. (Opcional) Si elige Ejecutar según una programación, especifique la programación que incorpora los metadatos en el activo.

  14. Elija Next (Siguiente).

  15. Seleccione Create (Crear).

  16. (Opcional) Si no ha creado una programación, elija Ejecutar para llevar los metadatos de la tabla de AWS Glue al activo.

Publish an Amazon Redshift table

Para publicar un activo para una tabla de Amazon Redshift, debe crear un origen de datos para él y publicarlo. Un origen de datos es el mecanismo que extrae los metadatos de la tabla de Amazon Redshift al activo.

Utilice el siguiente procedimiento para publicar una tabla de Amazon Redshift.

Publicación de una tabla de Amazon Redshift
  1. Vaya hasta la página de inicio de Activos de SageMaker.

  2. Seleccione Activos propios.

  3. Elija Ver orígenes de datos.

  4. Elija Crear origen de datos.

  5. En Nombre, especifique un nombre para el origen de datos.

  6. En Descripción, proporcione una descripción.

  7. En Tipo, seleccione Amazon Redshift.

    • Seleccione Clúster Redshift.

      1. En Clúster Redshift, especifique el nombre del clúster de Amazon Redshift que contiene la base de datos de la tabla.

      2. En Secreto, especifique el nombre del secreto de AWS Secrets Manager que contiene las credenciales del clúster.

    • Seleccione Redshift sin servidor.

      1. En Grupo de trabajo de Redshift, especifique el nombre del clúster de Amazon Redshift que contiene la base de datos de la tabla.

      2. En Secreto, especifique el nombre del secreto de AWS Secrets Manager que contiene las credenciales del grupo de trabajo.

  8. En Selección de origen de publicación, seleccione la base de datos que contiene la tabla de Amazon Redshift.

  9. En Criterios de selección de tablas, especifique el nombre de la tabla.

    nota

    Aunque puede especificar más de una tabla, le recomendamos encarecidamente que proporcione solo un nombre de tabla.

  10. Elija Siguiente.

    • En Publicar un activo en el catálogo, seleccione para publicarlo en el catálogo de activos.

    • En Publicar un activo en el catálogo, seleccione No para publicarlo en el catálogo de activos.

  11. Elija Siguiente.

  12. En Detalles del activo, elija Ejecutar según una programación o Ejecutar bajo demanda para determinar cómo se incorporan los metadatos de la tabla de Amazon Redshift al activo.

  13. (Opcional) Si elige Ejecutar según una programación, especifique la programación que incorpora los metadatos en el activo.

  14. Elija Next (Siguiente).

  15. Seleccione Create (Crear).

  16. (Opcional) Si no ha creado una programación, elija Ejecutar para incorporar los metadatos de la tabla de Amazon Redshift al activo.

Utilice los siguientes procedimientos para publicar un activo para un grupo de características o un grupo de paquetes de modelos.

Publish a feature group

Utilice el siguiente procedimiento para navegar hasta un grupo de características que haya creado y publicarlo en sus activos propios o en su catálogo de activos.

Publicación del grupo de características en sus activos propios o su catálogo de activos
  1. En Studio, seleccione Datos en la barra de navegación de la izquierda.

  2. Seleccione el grupo de características que va a publicar.

  3. Seleccione el icono Three dots next to the feature group. .

    • Seleccione Publicar en el catálogo de activos para publicarlo en el catálogo de activos.

    • Seleccione Publicar en el inventario para publicarlo en los activos propiedad de su grupo.

Publish a model group

Utilice el siguiente procedimiento para navegar hasta un grupo de modelos que haya creado y publicarlo en sus activos propios o en su catálogo de activos.

Publicación del grupo de modelos en sus activos propios o su catálogo de activos
  1. En Studio, seleccione Modelos en la barra de navegación de la izquierda.

  2. Seleccione el grupo de modelos que va a publicar.

  3. Seleccione el icono Three dots next to the model group. .

    • Seleccione Publicar en el catálogo de activos para publicarlo en el catálogo de activos.

    • Seleccione Publicar en el inventario para publicarlo en los activos propiedad de su grupo.

Utilice el siguiente procedimiento para publicar un activo de sus activos propios en el catálogo de activos.

Publicación de un recurso desde la página de Activos de SageMaker
  1. En Studio, vaya a Activos.

  2. Seleccione Activos propios.

  3. Especifique el nombre del activo en la barra de búsqueda.

  4. Elija el activo.

  5. Elija Publicar.

Puede usar el siguiente código de SageMaker Python SDK para publicar un grupo de características o un grupo de paquetes de modelos. El código supone que ya ha creado el grupo de características o el grupo de paquetes de modelos.

from sagemaker.asset import AssetManager publisher = AssetPublisher() publisher.publish_to_catalog(name-of-your-feature-group-or-model-package)

Paso 3: administración de las solicitudes de acceso

Después de publicar un activo, es posible que los usuarios ajenos al proyecto quieran acceder a él. Puede proporcionar, rechazar o revocar solicitudes de acceso. También puede eliminar activos para que solo usted pueda acceder al origen de los datos subyacentes.

Utilice el procedimiento siguiente para responder a las solicitudes de suscripción.

Aprobación de solicitudes de suscripción
  1. Vaya hasta la página Activos de SageMaker.

  2. Seleccione Administrar activos.

  3. Seleccione Solicitudes de suscripción entrantes.

    • (Opcional) Seleccione Aprobar e indique el motivo.

    • (Opcional) Seleccione Rechazar.

También puede revocar el acceso a un recurso que ha aprobado previamente. Si decide revocar el acceso, los usuarios perderán el acceso tanto al activo como al origen del activo subyacente. Utilice el siguiente procedimiento para revocar el acceso.

Revocación del acceso
  1. Vaya hasta la página Activos de SageMaker.

  2. Seleccione Administrar activos.

  3. Seleccione Solicitudes de suscripción entrantes.

  4. Seleccione la pestaña Aprobado.

  5. Seleccione Revocar junto al activo.

También puede anular la publicación de los activos para que solo aparezcan como activos propios. Los activos no serán visibles en el catálogo de recursos, pero las personas cuyas solicitudes de suscripción haya aprobado podrán seguir accediendo a ellos.

Anulación de la publicación de un activo
  1. Vaya hasta la página Activos de SageMaker.

  2. En Recursos propios, seleccione el recurso del que va a anular la publicación.

  3. Elija Unpublish (Anular publicación).

También puede eliminar los activos de la misma página en la que anuló su publicación. Al eliminar un activo, no se elimina el origen de los datos. La eliminación de un activo solo hace que el activo deje de ser visible para los demás miembros de su proyecto u organización.

Paso 4: búsqueda de activos y administración del acceso a ellos

Puede solicitar el acceso a los activos que otros usuarios han publicado en el catálogo de recursos. Si aprueban la solicitud de suscripción, tendrá acceso al origen de los datos subyacentes.

En la parte superior de la página de Activos de SageMaker, puede especificar una consulta de búsqueda para encontrar activos que otros usuarios de su organización hayan publicado. También puede seleccionar un tipo de activo para ver todos los activos publicados de ese tipo. Por ejemplo, puede seleccionar Tabla de Glue para ver todas las tablas de AWS Glue publicadas.

También puede ver el tipo de activo directamente debajo del nombre del activo. Los nombres disponibles para los tipos de activos son los siguientes:

  • Tabla de Redshift

  • Tabla de Glue

  • Modelos

  • Grupo de características

nota

Los grupos de características de las siguientes tiendas son del tipo Tabla de Glue:

  • Sin conexión

  • Sin conexión y en línea

Realización de una solicitud de suscripción
  1. Vaya hasta la página Activos de SageMaker.

    • En la barra de búsqueda, especifique el nombre del recurso y elija Buscar.

    • En Tipos, seleccione el tipo de activo y busque un activo al que vaya a acceder en el catálogo de recursos.

  2. Elija el activo.

  3. Elija Suscribirse.

  4. Indique el motivo de la solicitud.

  5. Elija Enviar.

Su solicitud de suscripción aparece en Solicitudes de suscripción salientes, en Administrar solicitudes de activos. Si el publicador del activo aprueba su solicitud, aparecerá en Activos suscritos. Ahora puede usar el origen de datos de Amazon Redshift, la tabla de AWS Glue o ML en sus flujos de trabajo de machine learning.

Paso 5: uso de un activo compartido en sus flujos de trabajo de machine learning

Si se aprueba su solicitud de suscripción a un activo, puede usarla en sus flujos de trabajo de machine learning.

Los grupos de características a los que se le ha dado acceso aparecen en la lista de grupos de características de Studio.

Los grupos de modelos a los que se le ha dado acceso aparecen en la lista de grupos de modelos de Studio. Puede abrir su grupo de modelos en el registro de modelos desde Activos de SageMaker. Utilice el siguiente procedimiento para abrir el grupo de modelos en el registro de modelos. Activos suscritos.

Apertura de un grupo de modelos desde Activos de SageMaker
  1. Seleccione el grupo de modelos.

  2. Seleccione Abrir en registro de modelos.

Puede acceder a tablas de AWS Glue o Amazon Redshift en Data Wrangler dentro de SageMaker Canvas. SageMaker Canvas es una aplicación que permite realizar análisis exploratorios de datos (EDA) y entrenar modelos sin necesidad de código. Para obtener más información acerca de SageMaker Canvas, consulte Amazon SageMaker Canvas.

También puede llevar los datos de sus tablas de AWS Glue o Amazon Redshift a sus cuadernos de Jupyter mediante la extensión de SQL. Puede convertir sus datos en marcos de datos de pandas para sus flujos de trabajo de machine learning. Para obtener más información, consulte Preparación de los datos con SQL en Studio.