Pianificazione dei flussi di lavoro di ML - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Pianificazione dei flussi di lavoro di ML

Con Amazon SageMaker AI puoi gestire l'intero flusso di lavoro ML mentre crei set di dati, esegui trasformazioni dei dati, costruisci modelli a partire dai dati e distribuisci i tuoi modelli sugli endpoint per l'inferenza. Se esegui periodicamente un sottoinsieme di fasi del flusso di lavoro, puoi anche scegliere di eseguire questi fasi in base a una pianificazione. Ad esempio, potresti voler pianificare un lavoro in SageMaker Canvas per eseguire una trasformazione su nuovi dati ogni ora. In un altro scenario, potresti voler pianificare un processo settimanale per monitorare la deriva del modello implementato. Puoi specificare una pianificazione ricorrente con qualsiasi intervallo di tempo: ogni secondo, ogni minuto, ogni giorno, ogni settimana, ogni mese o il terzo venerdì di ogni mese alle 15:00.

Gli scenari seguenti riepilogano le opzioni disponibili a seconda del caso d’uso.
  • Caso d’uso 1: crea e pianifica il flusso di lavoro di ML in un ambiente no code. Per i principianti o per chi è alle prime armi con l' SageMaker intelligenza artificiale, puoi utilizzare Amazon SageMaker Canvas sia per creare il tuo flusso di lavoro ML sia per creare esecuzioni pianificate utilizzando lo scheduler basato sull'interfaccia utente di Canvas.

  • Caso d’uso 2: crea il flusso di lavoro in un unico notebook Jupyter e utilizza uno scheduler no code. I professionisti esperti di ML possono utilizzare il codice per creare il proprio flusso di lavoro di ML in un notebook Jupyter e utilizzare l’opzione di pianificazione no code disponibile con il widget Processi del notebook. Se il flusso di lavoro di ML è composto da più notebook Jupyter, puoi utilizzare la funzionalità di pianificazione in Pipelines Python SDK descritta nel caso d’uso 3.

  • Caso d’uso 3: crea e pianifica il tuo flusso di lavoro di ML con Pipelines. Gli utenti esperti possono utilizzare l'SDK Amazon SageMaker Python, l'editor visivo di Amazon SageMaker Pipelines o le opzioni di EventBridge pianificazione di Amazon disponibili con Pipelines. Puoi creare un flusso di lavoro ML composto da passaggi che includono operazioni con varie funzionalità e AWS servizi di SageMaker intelligenza artificiale, come Amazon EMR.

Descrittore Caso d'uso 1 Caso d'uso 2 Caso d'uso 3
SageMaker Funzionalità AI Elaborazione dei dati e pianificazione del flusso di lavoro ML di Amazon SageMaker Canvas Widget di pianificazione Processi del notebook (interfaccia utente) Opzioni di pianificazione di Pipelines Python SDK
Description Con Amazon SageMaker Canvas, puoi pianificare esecuzioni automatiche delle fasi di elaborazione dei dati e, in una procedura separata, aggiornamenti automatici dei set di dati. Puoi anche pianificare indirettamente l’intero flusso di lavoro di ML impostando una configurazione che esegue una previsione in batch ogni volta che viene aggiornato uno specifico set di dati. Sia per l'elaborazione automatica dei dati che per gli aggiornamenti dei set di dati, SageMaker Canvas fornisce un modulo di base in cui è possibile selezionare un'ora e una data di inizio e un intervallo di tempo tra le esecuzioni (o un'espressione cron se si pianifica una fase di elaborazione dei dati). Per ulteriori informazioni su come pianificare le fasi di elaborazione dei dati, consulta Creazione di una pianificazione per elaborare automaticamente i nuovi dati. Per ulteriori informazioni su come pianificare gli aggiornamenti dei set di dati e delle previsioni in batch, consulta Come gestire le automazioni. Se hai creato il flusso di lavoro per l’elaborazione dei dati e la pipeline in un unico notebook Jupyter, puoi utilizzare il widget Processi del notebook per eseguire il notebook on demand o in base a una pianificazione. Il widget Processi del notebook visualizza un modulo di base in cui puoi specificare il tipo di calcolo, la pianificazione dell’esecuzione e le impostazioni personalizzate facoltative. Puoi definire la pianificazione dell’esecuzione selezionando un intervallo temporale o inserendo un’espressione Cron. Il widget viene installato automaticamente in Studio oppure è possibile eseguire un'installazione aggiuntiva per utilizzare questa funzionalità nell'ambiente locale. JupyterLab Per ulteriori informazioni su Processi del notebook, consulta SageMaker Lavori su notebook. Puoi utilizzare le funzionalità di pianificazione dell' SageMaker SDK se hai implementato il flusso di lavoro ML con Pipelines. La tua pipeline può includere fasi come il fine-tuning, l’elaborazione dei dati e l’implementazione. Pipelines supporta due tipi di pianificazione della pipeline. Puoi creare una EventBridge regola Amazon o utilizzare il PipelineSchedulecostruttore SageMaker SDK o l'editor visivo di Amazon SageMaker Pipelines per definire una pianificazione. Per ulteriori informazioni sulle opzioni di pianificazione disponibili, consulta Pianificazione delle esecuzioni della pipeline.
Ottimizzazione per Fornisce un'opzione di pianificazione per un flusso di lavoro Canvas ML SageMaker Fornisce un’opzione di pianificazione basata sull’interfaccia utente per i flussi di lavoro di ML basati su notebook Jupyter Fornisce un SageMaker SDK o un'opzione di EventBridge pianificazione per i flussi di lavoro ML
Considerazioni Puoi pianificare il flusso di lavoro con il framework no code Canvas, ma gli aggiornamenti dei set di dati e della trasformazione di batch possono gestire fino a 5 GB di dati. Nello stesso processo non puoi pianificare più notebook con il modulo di pianificazione basato sull’interfaccia utente. Per pianificare più notebook, utilizza la soluzione basata su codice dell’SDK Pipelines descritta nel caso d’uso 3. Puoi utilizzare le funzionalità di pianificazione più avanzate (basate su SDK) fornite da Pipelines, ma devi fare riferimento alla documentazione dell’API per specificare le opzioni corrette anziché selezionarle da un menu di opzioni basato sull’interfaccia utente.
Ambiente consigliato Amazon SageMaker Tela Studio, JupyterLab ambiente locale Studio, JupyterLab ambiente locale, qualsiasi editor di codice

Risorse aggiuntive

SageMaker L'intelligenza artificiale offre le seguenti opzioni aggiuntive per la pianificazione dei flussi di lavoro.
  • Cos'è Amazon EventBridge Scheduler? . Le opzioni di pianificazione discusse in questa sezione includono opzioni predefinite disponibili in SageMaker Canvas, Studio e AI SageMaker Python SDK. Tutte le opzioni estendono le funzionalità di Amazon EventBridge e puoi anche creare la tua soluzione di pianificazione personalizzata con EventBridge.

  • Esecuzioni pianificate e basate su eventi per le pipeline del Processore di funzionalità. Con Amazon SageMaker Feature Store Feature Processing, puoi configurare le tue pipeline di Feature Processing in modo che vengano eseguite secondo una pianificazione o come risultato di un altro evento di AWS servizio.