Exécutions planifiées et basées sur des événements pour les pipelines d’intégrateur de caractéristiques - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Exécutions planifiées et basées sur des événements pour les pipelines d’intégrateur de caractéristiques

Les exécutions du pipeline de traitement des SageMaker fonctionnalités Amazon Feature Store peuvent être configurées pour démarrer automatiquement et de manière asynchrone en fonction d'un calendrier préconfiguré ou à la suite d'un autre AWS événement de service. Par exemple, vous pouvez planifier des pipelines d’intégration de caractéristiques pour qu’ils s’exécutent le premier de chaque mois, ou chaîner deux pipelines ensemble afin qu’un pipeline cible soit exécuté automatiquement après l’exécution d’un pipeline source.

Exécutions basées sur une planification

Le SDK Feature Processor fournit une scheduleAPI permettant d'exécuter des pipelines de processeurs de fonctionnalités de manière récurrente avec l'intégration d'Amazon EventBridge Scheduler. Le calendrier peut être spécifié avec une cron expression atrate, ou en utilisant le ScheduleExpressionparamètre avec les mêmes expressions prises en charge par Amazon EventBridge. D’un point de vue sémantique, l’API de planification est une opération upsert dans la mesure où elle met à jour la planification si elle existe déjà ; dans le cas contraire, elle la crée. Pour plus d'informations sur les EventBridge expressions et les exemples, consultez la section Types de planification sur le EventBridge planificateur dans le guide de l'utilisateur du EventBridge planificateur.

Les exemples suivants utilisent l’API schedule de l’intégrateur de caractéristiques, à l’aide des expressions at, rate et cron.

from sagemaker.feature_store.feature_processor import schedule pipeline_name='feature-processor-pipeline' event_bridge_schedule_arn = schedule( pipeline_name=pipeline_name, schedule_expression="at(2020-11-30T00:00:00)" ) event_bridge_schedule_arn = schedule( pipeline_name=pipeline_name, schedule_expression="rate(24 hours)" ) event_bridge_schedule_arn = schedule( pipeline_name=pipeline_name, schedule_expression="cron(0 0-23/1 ? * * 2023-2024)" )

Le fuseau horaire par défaut pour les entrées de date et d’heure dans l’API schedule correspond à l’heure UTC. Pour plus d'informations sur les expressions de planification du EventBridge planificateur, consultez la documentation de ScheduleExpressionréférence de l'API du EventBridge planificateur.

Les exécutions planifiées de pipeline d’intégrateur de caractéristiques fournissent à votre fonction de transformation l’heure d’exécution planifiée, à utiliser comme jeton d’idempotence ou comme point de référence fixe pour les entrées basées sur des plages de dates. Pour désactiver (c’est-à-dire suspendre) ou réactiver une planification, utilisez le paramètre state de l’API schedule avec ‘DISABLED’ ou ‘ENABLED’, respectivement.

Pour en savoir plus sur l’intégrateur de caractéristiques, consultez Sources de données du kit SDK d'intégrateur de fonctionnalités.

Exécutions basées sur des événements

Un pipeline d’intégration de caractéristiques peut être configuré pour s’exécuter automatiquement lorsqu’un événement AWS se produit. Le kit SDK d’intégration de caractéristiques fournit une fonction put_trigger qui accepte une liste d’événements sources et un pipeline cible. Les événements sources doivent être des instances de FeatureProcessorPipelineEvent, qui spécifient un pipeline et des événements de statut d’exécution.

La put_trigger fonction configure une EventBridge règle et une cible Amazon pour acheminer les événements et vous permet de spécifier un modèle d' EventBridge événement pour répondre à n'importe quel AWS événement. Pour plus d'informations sur ces concepts, consultez les EventBridge règles, les cibles et les modèles d'événements d'Amazon.

Les déclencheurs peuvent être activés ou désactivés. EventBridge lancera l'exécution d'un pipeline cible en utilisant le rôle fourni dans le role_arn paramètre de l'put_triggerAPI. Le rôle d'exécution est utilisé par défaut si le SDK est utilisé dans un environnement Amazon SageMaker Studio Classic ou Notebook. Pour en savoir plus sur la façon d’obtenir votre rôle d’exécution, consultez Obtention de votre rôle d’exécution.

L’exemple suivant configure :

  • Un pipeline d' SageMaker IA utilisant l'to_pipelineAPI, qui prend en compte le nom de votre pipeline cible (target-pipeline) et votre fonction de transformation (transform). Pour en savoir plus sur votre intégrateur de caractéristiques et votre fonction de transformation, consultez Sources de données du kit SDK d'intégrateur de fonctionnalités.

  • Un déclencheur utilisant l’API put_trigger, qui accepte FeatureProcessorPipelineEvent pour l’événement et le nom de votre pipeline cible (target-pipeline).

    FeatureProcessorPipelineEvent définit le déclencheur à utiliser quand le statut de votre pipeline source (source-pipeline) devient Succeeded. Pour en savoir plus sur la fonction d’événement de pipeline de l’intégrateur de caractéristiques, consultez FeatureProcessorPipelineEvent dans Feature Store Read the Docs.

from sagemaker.feature_store.feature_processor import put_trigger, to_pipeline, FeatureProcessorPipelineEvent to_pipeline(pipeline_name="target-pipeline", step=transform) put_trigger( source_pipeline_events=[ FeatureProcessorPipelineEvent( pipeline_name="source-pipeline", status=["Succeeded"] ) ], target_pipeline="target-pipeline" )

Pour un exemple d’utilisation de déclencheurs basés sur des événements pour créer des exécutions continues et des tentatives automatiques pour votre pipeline d’intégrateur de caractéristiques, consultez Exécutions continues et nouvelles tentatives automatiques à l’aide de déclencheurs basés sur des événements.

Pour un exemple d’utilisation de déclencheurs basés sur des événements pour créer un streaming continu et de nouvelles tentatives automatiques à l’aide de déclencheurs basés sur des événements, consultez Exemples de sources de données personnalisées de streaming.