Concepts liés à Feature Store
Nous répertorions les termes courants utilisés dans Amazon SageMaker Feature Store, suivis d’exemples de diagramme pour visualiser certains concepts :
-
Magasin de fonctionnalités : couche de stockage et de gestion des données pour les fonctionnalités de machine learning (ML). Fait office d'unique source de vérité pour stocker, récupérer, supprimer, suivre, partager et découvrir des fonctionnalités, et en contrôler l'accès. Dans l'exemple de diagramme suivant, le magasin de fonctionnalités est un magasin pour vos groupes de fonctionnalités, qui contient vos données ML et fournit des services supplémentaires.
-
Magasin en ligne : magasin à faible latence et haute disponibilité pour un groupe de fonctionnalités, qui permet la recherche en temps réel d'enregistrements. Le magasin en ligne permet d'accéder rapidement au dernier enregistrement via l'API
GetRecord. -
Magasin hors connexion : stocke des données historiques dans votre compartiment Amazon S3. Le magasin hors connexion est utilisé lorsque des lectures à faible latence (inférieure à une seconde) ne sont pas nécessaires. Par exemple, le magasin hors connexion peut être utilisé pour stocker et utiliser des fonctionnalités à des fins d'exploration, d'entraînement de modèle et d'inférence par lots.
-
Groupe de caractéristiques : ressource principale de Feature Store qui contient les données et les métadonnées utilisées pour l’entraînement ou la prédiction avec un modèle ML. Un groupe de fonctionnalités est un groupement logique de fonctionnalités utilisé pour décrire des enregistrements. Dans l'exemple de diagramme suivant, un groupe de fonctionnalités contient vos données ML.
-
Fonctionnalité : propriété utilisée comme l'une des entrées pour entraîner ou prédire à l'aide de votre modèle ML. Dans l'API Feature Store, une fonctionnalité est un attribut d'un enregistrement. Dans l'exemple de diagramme suivant, une fonctionnalité décrit une colonne de votre table de données ML.
-
Définition de fonctionnalité : comprend un nom et l'un des types de données : Integral, String ou Fractional. Un groupe de fonctionnalités contient une liste de définitions de fonctionnalités. Pour plus d'informations sur les types de données Feature Store, consultez Types de données.
-
Enregistrement : collection de valeurs de fonctionnalités pour un identificateur d'enregistrement unique. La combinaison d'un identificateur d'enregistrement et de valeurs d'horodatage d'événement identifie de manière unique un enregistrement dans un groupe de fonctionnalités. Dans l'exemple de diagramme suivant, un enregistrement est une ligne de votre table de données ML.
-
Nom d'identificateur d'enregistrement : il s'agit du nom de la fonctionnalité qui identifie les enregistrements. Il doit faire référence à l'un des noms d'une fonctionnalité définie dans les définitions de fonctionnalités du groupe de fonctionnalités. Chaque groupe de fonctionnalités est défini par un nom d'identificateur d'enregistrement.
-
Heure d'événement : horodatage que vous fournissez correspondant au moment où l'événement d'enregistrement s'est produit. Tous les enregistrements d'un groupe de fonctionnalités doivent avoir une heure d'événement correspondante. Le magasin en ligne contient uniquement l'enregistrement correspondant à la dernière heure d'événement, tandis que le magasin hors connexion contient tous les enregistrements historiques. Pour plus d'informations sur les formats d'heure d'événement, consultez Types de données.
-
Ingestion : ajout de nouveaux enregistrements à un groupe de fonctionnalités. L’ingestion est généralement réalisée via l’API
PutRecord.
Diagramme de présentation des concepts
L’exemple de diagramme suivant conceptualise quelques concepts liés à Feature Store :
Le magasin de fonctionnalités contient vos groupes de fonctionnalités et un groupe de fonctionnalités contient vos données ML. Dans cet exemple de diagramme, le groupe de caractéristiques d’origine contient une table de données qui comporte trois caractéristiques (chacune décrivant une colonne) et deux enregistrements (lignes).
-
La définition d’une caractéristique décrit le nom de la caractéristique et le type de données des valeurs de caractéristique associées aux enregistrements.
-
Un enregistrement contient les valeurs de caractéristique et est identifié de manière unique par son identifiant d’enregistrement et doit inclure l’heure de l’événement.
Diagrammes d’ingestion
L’ingestion est l’action qui consiste à ajouter un ou plusieurs enregistrements à un groupe de caractéristiques existant. Les magasins en ligne et hors ligne sont mis à jour différemment en fonction des différents cas d’utilisation du stockage.
Exemple d’ingestion dans le magasin en ligne
Le magasin en ligne permet de consulter les dossiers en temps réel et ne conserve que les dossiers les plus récents. Une fois qu’un enregistrement est ingéré dans un magasin en ligne existant, le magasin en ligne mis à jour ne conserve que l’enregistrement indiquant l’heure du dernier événement.
Dans l’exemple de diagramme suivant, le magasin en ligne d’origine contient une table de données ML avec un seul enregistrement. Un enregistrement est ingéré avec le même nom d’identifiant d’enregistrement que l’enregistrement d’origine, et l’enregistrement ingéré a une date d’événement antérieure à celle de l’enregistrement d’origine. Comme le magasin en ligne mis à jour ne conserve que l’heure du dernier événement, il contient l’enregistrement d’origine.
Exemple d’ingestion dans le magasin hors ligne
Le magasin hors ligne permet de consulter l’historique des enregistrements et conserve tous les enregistrements. Une fois qu’un nouvel enregistrement est ingéré dans un magasin hors ligne existant, le magasin hors ligne mis à jour conserve le nouvel enregistrement.
Dans l’exemple de diagramme suivant, le magasin hors ligne d’origine contient une table de données ML avec un seul enregistrement. Un enregistrement est ingéré avec le même nom d’identifiant d’enregistrement que l’enregistrement d’origine, et l’enregistrement ingéré a une date d’événement antérieure à celle de l’enregistrement d’origine. Comme le magasin hors ligne mis à jour conserve tous les enregistrements, le magasin hors ligne mis à jour contient les deux enregistrements.