Flusso di lavoro RL di esempio che sfrutta l’apprendimento per rinforzo Amazon SageMaker AI - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Flusso di lavoro RL di esempio che sfrutta l’apprendimento per rinforzo Amazon SageMaker AI

L’esempio seguente descrive le fasi di sviluppo di modelli RL utilizzando l’apprendimento per rinforzo Amazon SageMaker AI.

  1. Formulare il problema RL: in primo luogo, formulare il problema aziendale sotto forma di problema RL. Ad esempio, la scalabilità automatica consente ai servizi di aumentare o diminuire dinamicamente la capacità in base alle condizioni definite dall'utente. Attualmente, è necessaria l'impostazione di allarmi, policy di dimensionamento, soglie e altre fasi manuali. Per risolvere questo RL, vengono definiti i componenti di Markov Decision Process:

    1. Obiettivo: ridimensionare la capacità dell'istanza in modo che corrisponda al profilo di carico desiderato.

    2. Ambiente: un ambiente personalizzato che include il profilo di carico. Genera un carico simulata con le variazioni giornaliere e settimanali e i picchi occasionali. Il sistema simulato presenta un ritardo tra la richiesta di nuove risorse e la loro effettiva disponibilità per elaborare richieste.

    3. Stato: il carico corrente, il numero di processi non riusciti e il numero di dispositivi attivi.

    4. Azione: rimuovere, aggiungere o mantenere lo stesso numero di istanze.

    5. Ricompensa: una ricompensa positiva per le transazioni riuscite e una penalità elevata per le transazioni non riuscite oltre una soglia specifica.

  2. Definizione dell'ambiente RL: l'ambiente RL può essere il mondo reale in cui l'agente RL interagisce o una simulazione del mondo reale. Puoi connettere ambienti open-source e personalizzati sviluppati utilizzando interfacce Gym e ambienti di simulazione commerciali, ad esempio MATLAB e Simulink.

  3. Definizione del set di impostazioni: i set di impostazioni configurano i processi di addestramento dell'RL e definiscono gli iperparametri per gli algoritmi dell'RL.

  4. Scrittura del codice di addestramento: scrivi il codice di addestramento come script Python e passa lo script a un job di addestramento SageMaker AI. Nel codice di addestramento, importare i file di ambiente e i file dei set di impostazioni, quindi definire la funzione main().

  5. Addestramento del modello RL: utilizza RLEstimator di SageMaker AI in Amazon SageMaker Python SDK per avviare un job di addestramento dell’apprendimento per rinforzo. Se si utilizza la modalità locale, il processo di addestramento viene eseguito sull'istanza del notebook. Quando si utilizza SageMaker AI per l’addestramento, è possibile selezionare le istanze di GPU o CPU. Archivia l’output del job di addestramento in una directory locale se addestri in modalità locale o in Amazon S3 se utilizzi l’addestramento SageMaker AI.

    RLEstimator richiede le seguenti informazioni come parametri.

    1. La directory di origine in cui vengono caricati l'ambiente, le preimpostazioni e il codice di addestramento.

    2. Il percorso allo script di addestramento.

    3. Il kit di strumenti RL e il framework di deep learning da utilizzare. Questo si risolve automaticamente nel percorso di Amazon ECR per il container RL.

    4. I parametri di addestramento, ad esempio il conteggio istanze, il nome processo e il percorso S3 per l'output.

    5. Le definizioni dei parametri che si desidera acquisire nei log. Possono anche essere visualizzati in CloudWatch e nei notebook di SageMaker AI.

  6. Visualizza gli output e i parametri di addestramento: con il completamento di un processo di addestramento che utilizza un modello RL, puoi visualizzare i parametri che hai definito nei processi di addestramento in CloudWatch,. È anche possibile tracciare un grafico dei parametri in un notebook utilizzando la libreria di analisi di Amazon SageMaker Python SDK. La visualizzazione dei parametri consente di comprendere in che modo le prestazioni del modello misurate in base alla ricompensa migliorano nel tempo.

    Nota

    Se si addestra in modalità locale, non è possibile visualizzare parametri in CloudWatch.

  7. Valuta il modello: i dati su cui è stato eseguito il checkpoint provenienti dai modelli precedentemente addestrati possono essere trasmessi per la valutazione e l'inferenza nel canale di checkpoint. In modalità locale, utilizzare la directory locale. In modalità di addestramento SageMaker AI, è necessario innanzitutto caricare i dati in S3.

  8. Implementazione dei modelli RL: implementa infine il modello addestrato in un endpoint ospitato su container SageMaker AI o su un dispositivo edge utilizzando AWS IoT Greengrass.

Per ulteriori informazioni su RL con SageMaker AI, consulta Using Reinforcement Learning with the SageMaker Python SDK.