Utilisation des ressources (guide de l’utilisateur)
Utilisez SageMaker Assets pour collaborer en toute fluidité sur des projets de machine learning avec d’autres membres de votre organisation. Avec SageMaker Assets, vous et vos collaborateurs créez et partagez des modèles et des tables de données entre vous. Dans SageMaker Assets, ces modèles et tables de données sont appelés ressources.
SageMaker Assets est une fonctionnalité dans Amazon SageMaker Studio. Vous ou votre administrateur créez un environnement Studio au sein d’un projet Amazon DataZone. Pour plus d’informations sur la configuration d’Amazon DataZone, consultez Configuration de SageMaker Assets (guide de l’administrateur).
Les ressources sont des ressources ML ou des ressources de données. Les ressources ML sont des métadonnées qui pointent vers les éléments suivants :
-
Groupes de caractéristiques Feature Store
-
Groupes de modèles SageMaker AI
Les groupes de modèles et les groupes de caractéristiques sous-jacents sont les sources des données. Si vous mettez à jour un groupe de caractéristiques ou un groupe de modèles, la ressource associée au groupe de modèles ou au groupe de caractéristiques est mise à jour dans la journée.
Les ressources de données sont des métadonnées qui pointent vers les éléments suivants :
-
Tables Amazon Redshift
-
Tables AWS Glue
Pour les ressources de données, la source de données est le mécanisme qui extrait les métadonnées des tables AWS Glue et des tables Amazon Redshift pour les placer dans la ressource. Par exemple, une source de données extrait les métadonnées d’une table AWS Glue pour les placer dans la ressource associée à cette table.
Vous pouvez rendre une ressource visible par tous les membres de votre organisation en la publiant. Les utilisateurs individuels peuvent visualiser les métadonnées figurant dans la ressource et en demander l’accès. Si vous leur accordez cet accès, ils obtiennent l’accès à la source de données ou à la table de machine learning sous-jacente.
Votre administrateur vous a probablement donné accès aux groupes de caractéristiques, aux groupes de modèles et aux tables. Si ce n’est pas le cas, consultez les informations dans Configuration de SageMaker Assets (guide de l’administrateur) qui vous aideront à démarrer.
Les sections suivantes fournissent des informations de référence sur les groupes de caractéristiques et les groupes de modèles.
Amazon SageMaker Feature Store fournit un emplacement centralisé qui vous permet de stocker et de gérer vos caractéristiques. Il s’agit d’un référentiel très performant que vous pouvez utiliser pour l’ingénierie des caractéristiques.
Dans Feature Store, les caractéristiques sont stockées dans un groupe de caractéristiques. Un groupe de caractéristiques désigne une collection de caractéristiques associées à un projet sur lequel vous travaillez. Par exemple, si vous travaillez sur un projet de prédiction des prix des logements, un groupe de caractéristiques peut inclure des caractéristiques telles que l’emplacement ou le nombre de chambres.
Pour plus d’informations sur la manière dont vous pouvez utiliser les groupes de caractéristiques pour rationaliser le processus d’ingénierie des caractéristiques, consultez Création, stockage et partage de caractéristiques avec Feature Store.
Vous pouvez utiliser les groupes de modèles SageMaker AI au sein du registre des modèles SageMaker pour organiser et gérer les différentes versions de vos modèles. Vous pouvez comparer les différentes versions des modèles pour déterminer celle qui convient le mieux à votre cas d’utilisation. Pour plus d’informations sur le registre des modèles SageMaker, consultez Déploiement de l’enregistrement de modèles à l’aide du registre de modèles.
Vous trouverez ci-dessous des informations contextuelles sur Amazon Redshift et AWS Glue.
Amazon Redshift est un service d’entreposage de données à grande échelle qui fournit des performances de requête rapides sur de grands jeux de données. Pour plus d’informations sur Amazon Redshift, consultez Amazon Redshift sans serveur.
AWS Glue est un service d’extraction, de transformation et de chargement (ETL) que vous pouvez utiliser pour simplifier le processus de préparation des données. Pour plus d’informations sur AWS Glue, consultez Qu’est-ce que AWS Glue ?
Vous pouvez utiliser l’éditeur SQL pour connecter les bases de données AWS Glue et Amazon Redshift et exécuter des requêtes. Vous pouvez partager toutes les tables que vous créez dans l’éditeur au sein de SageMaker Assets. Pour plus d’informations, consultez Préparation des données avec SQL dans Studio.
Rubriques
Terminologie et concepts
Avant de commencer à utiliser SageMaker Assets, il est utile de vous familiariser avec la terminologie et les concepts suivants :
-
Ressource : métadonnées qui pointent vers les modèles ou les tables de données que vous partagez. Vous pouvez demander l’accès à une ressource appartenant à quelqu’un d’autre ou partager votre ressource avec d’autres personnes. Vous et les membres de votre équipe accédez à la ressource et au modèle ou à la table de données sous-jacent(e) qui lui est associé(e).
-
Ressources abonnées : pour demander l’accès à une ressource, vous devez soumettre une demande d’abonnement. Si votre demande est approuvée, la ressource apparaît sous les ressources que vous avez souscrites.
-
Ressources détenues : les ressources que vous avez partagées avec vos collègues.
-
Catalogue de ressources : les ressources que vous avez partagées au sein de votre organisation.
Étape 1 : Accès à SageMaker Assets
Accédez à SageMaker Assets pour visualiser vos ressources et les partager avec d’autres personnes. Utilisez les informations suivantes pour commencer à les utiliser.
Vous accédez à SageMaker Assets depuis un projet au sein d’un domaine Amazon DataZone. Un projet est une collaboration entre vous et les membres de votre équipe. Au sein de ce projet, vous et les autres membres de votre projet avez accès aux ressources que vous et les autres membres de votre équipe créez dans le catalogue d’inventaire. Vous pouvez publier les ressources dans le catalogue publié pour les rendre visibles aux autres membres de votre organisation.
Ces personnes peuvent demander l’accès à votre ressource. Si vous leur fournissez cet accès, ils peuvent accéder à la source de données mise à jour. Par exemple, si une personne s’abonne à une table AWS Glue que vous mettez à jour, elle peut accéder à la table AWS Glue mise à jour en temps réel.
Utilisez la procédure suivante pour accéder à SageMaker Assets.
Pour accéder à SageMaker Assets
-
Ouvrez la console Amazon DataZone
. -
Choisissez Afficher les domaines.
-
À côté du domaine contenant votre projet, choisissez Portail de données ouvertes.
-
Sous Outils analytiques, choisissez SageMaker AI Studio.
-
Choisissez Ouvrir Amazon SageMaker AI.
-
Choisissez Assets.
Les ressources qui ont été partagées avec vous se trouvent sous Ressources abonnées. Les ressources que vous et les membres de votre projet créez se trouvent sous Ressources détenues. Les ressources que vous et les autres membres de votre organisation avez publiées figurent dans le catalogue des ressources.
Étape 2 : Partage des ressources et gestion de leur accès
Après avoir créé des modèles de machine learning, des groupes de caractéristiques ou des tables de données, vous pouvez les rendre visibles aux personnes qui collaborent avec vous sur votre projet ou, plus largement, dans votre organisation. Vous pouvez répondre aux demandes d’accès à la ressource. Si vous approuvez la demande d’un utilisateur, celui-ci peut modifier la source de données sous-jacente de la ressource.
Lorsque vous partagez une ressource, deux options s’offrent à vous :
-
Publier dans le catalogue des ressources : rendez la ressource visible à tous dans votre organisation.
-
Publier dans l’inventaire : rendez la ressource visible à tous ceux qui travaillent sur votre projet.
Si vous avez publié votre ressource dans le catalogue des ressources, les membres de votre organisation peuvent le trouver dans le catalogue des ressources. Ils peuvent visualiser les métadonnées de votre ressource et décider s’ils souhaitent en demander l’accès. Si vous approuvez leur demande, ils obtiennent l’accès à la source de données sous-jacente.
Si vous publiez dans l’inventaire, vous et les autres membres de votre projet pouvez accéder à la ressource sans aucune action supplémentaire.
Les ressources publiées dans l’inventaire apparaissent uniquement sous Ressources détenues. Les ressources publiées dans le catalogue apparaissent sous Ressources détenues et Catalogue des ressources.
Lorsque vous publiez une table de données, vous devez créer une source de données qui extrait les métadonnées de la table AWS Glue sous-jacente ou de la table Amazon Redshift pour les placer dans la ressource. Utilisez les procédures suivantes pour publier une table AWS Glue ou Amazon Redshift.
Utilisez les procédures suivantes pour publier une ressource pour un groupe de caractéristiques ou un groupe de packages de modèle.
Utilisez la procédure suivante pour publier une ressource à partir de vos ressources détenues dans le catalogue des ressources.
Pour publier une ressource depuis la page SageMaker Assets
-
Dans Studio, accédez à Ressources.
-
Sélectionnez Ressources détenues.
-
Spécifiez le nom de votre ressource dans la barre de recherche.
-
Choisissez la ressource.
-
Choisissez Publish.
Vous pouvez utiliser le code du kit SageMaker Python SDK suivant pour publier un groupe de caractéristiques ou un groupe de packages de modèle. Le code part du principe que vous avez déjà créé le groupe de caractéristiques ou le groupe de packages de modèle.
from sagemaker.asset import AssetManager publisher = AssetPublisher() publisher.publish_to_catalog(name-of-your-feature-group-or-model-package)
Étape 3 : Gestion des demandes d’accès
Une fois que vous avez publié une ressource, des utilisateurs extérieurs à votre projet souhaiteront peut-être y accéder. Vous pouvez fournir, rejeter ou révoquer des demandes d’accès. Vous pouvez également supprimer des ressources pour que la source de données sous-jacente ne soit disponible que pour vous-même.
Utilisez la procédure suivante pour répondre aux demandes d’abonnement.
Pour approuver les demandes d’abonnement
-
Accédez à la page Ressources SageMaker.
-
Choisissez Gérer les ressources.
-
Sélectionnez Demandes d’abonnement entrantes.
-
-
(Facultatif) Choisissez Approuver et indiquez le motif.
-
(Facultatif) Choisissez Rejeter.
-
Vous pouvez révoquer un accès à une ressource que vous avez précédemment approuvé. Si vous choisissez de révoquer un accès, les utilisateurs perdent l’accès à la fois à la ressource et à la source sous-jacente de la ressource. Utilisez la procédure suivante pour révoquer un accès.
Pour révoquer un accès
-
Accédez à la page Ressources SageMaker.
-
Choisissez Gérer les ressources.
-
Sélectionnez Demandes d’abonnement entrantes.
-
Sélectionnez l’onglet Approuvé.
-
Choisissez Révoquer à côté de la ressource.
Vous pouvez également annuler la publication de ressources pour qu’elles apparaissent uniquement en tant que ressources détenues. Les ressources ne seront pas visibles dans le catalogue des ressources, mais les personnes dont vous avez approuvé les demandes d’abonnement pourront toujours y accéder.
Pour annuler la publication d’une ressource
-
Accédez à la page Ressources SageMaker.
-
Sous Ressources détenues, sélectionnez la ressource dont vous souhaitez annuler la publication.
-
Choisissez Unpublish (Annuler la publication).
Vous pouvez également supprimer des ressources depuis la même page où vous annulez leur publication. La suppression d’une ressource n’entraîne pas la suppression de la source des données. La suppression d’une ressource ne fait que la rendre invisible aux autres membres de votre projet ou de votre organisation.
Étape 4 : Recherche de ressources et demande d’accès à ces ressources
Vous pouvez demander l’accès aux ressources que d’autres utilisateurs ont publiées dans le catalogue des ressources. S’ils approuvent la demande d’abonnement, vous obtenez l’accès à la source sous-jacente des données.
En haut de la page Ressources SageMaker, vous pouvez spécifier une requête de recherche pour trouver les ressources publiées par d’autres utilisateurs dans votre organisation. Vous pouvez également sélectionner un type de ressource pour visualiser toutes les ressources publiées de ce type. Par exemple, vous pouvez sélectionner Table Glue pour visualiser toutes les tables AWS Glue publiées.
Vous pouvez également afficher le type de ressource directement sous le nom de la ressource. Voici les noms disponibles pour les types de ressources :
-
Table Redshift
-
Table Glue
-
Modèles
-
Groupe de caractéristiques
Note
Les groupes de caractéristiques des magasins suivants ont le type Table Glue :
-
Hors connexion
-
Hors connexion et en ligne
Pour effectuer une demande d’abonnement
-
Accédez à la page Ressources SageMaker.
-
-
Dans la barre de recherche, spécifiez le nom de la ressource et choisissez Rechercher.
-
Pour Types, sélectionnez le type de ressource et recherchez une ressource à laquelle vous accédez dans le catalogue des ressources.
-
-
Choisissez la ressource.
-
Choisissez Souscrire.
-
Indiquez le motif de la demande.
-
Sélectionnez Soumettre.
Votre demande d’abonnement apparaît sous Demandes d’abonnement sortantes, sous Gérer les demandes de ressources. Si le diffuseur de publication de la ressource approuve votre demande, elle apparaît sous Ressources abonnées. Vous pouvez désormais utiliser la table Amazon Redshift, la table AWS Glue ou la source de données ML dans vos flux de travail de machine learning.
Étape 5 : Utilisation d’une ressource partagée dans vos flux de travail de machine learning
Si votre demande d’abonnement à une ressource est approuvée, vous pouvez l’utiliser dans vos flux de travail de machine learning.
Les groupes de caractéristiques auxquels vous avez obtenu l’accès apparaissent dans votre liste de groupes de caractéristiques dans Studio.
Les groupes de modèles auxquels vous avez obtenu l’accès apparaissent dans votre liste de groupes de modèles dans Studio. Vous pouvez ouvrir votre groupe de modèles dans le registre de modèles depuis SageMaker Assets. Utilisez la procédure suivante pour ouvrir le groupe de modèles dans le registre de modèles. Ressources abonnées.
Pour ouvrir un groupe de modèles depuis SageMaker Assets
-
Sélectionnez le groupe de modèles.
-
Choisissez Ouverture dans le registre des modèles.
Vous pouvez accéder aux tables AWS Glue ou Amazon Redshift dans Data Wrangler, dans SageMaker Canvas. SageMaker Canvas est une application qui permet d’effectuer une analyse exploratoire des données (EDA) et d’entraîner des modèles sans code. Pour plus d’informations sur SageMaker Canvas, consultez Amazon SageMaker Canvas.
Vous pouvez également apporter les données de vos tables AWS Glue ou Amazon Redshift dans vos blocs-notes Jupyter à l’aide de l’extension SQL. Vous pouvez convertir vos données en dataframes Pandas pour vos flux de travail de machine learning. Pour plus d’informations, consultez Préparation des données avec SQL dans Studio.