Concessione di autorizzazioni agli utenti per utilizzare grandi quantità di dati nel ciclo di vita di ML - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Concessione di autorizzazioni agli utenti per utilizzare grandi quantità di dati nel ciclo di vita di ML

Gli utenti di Amazon SageMaker Canvas che lavorano con set di dati di dimensioni superiori a 10 GB in formato CSV o 2,5 GB in formato Parquet richiedono autorizzazioni specifiche per l'elaborazione di dati di grandi dimensioni. Queste autorizzazioni sono essenziali per la gestione dei dati su larga scala durante l’intero ciclo di vita di machine learning. Quando i set di dati superano le soglie dichiarate o la capacità di memoria locale dell'applicazione, Canvas SageMaker utilizza Amazon EMR Serverless per un'elaborazione efficiente. Questo approccio si applica a:

  • Importazione dei dati: importazione di set di dati di grandi dimensioni con campionamento casuale o stratificato.

  • Preparazione dei dati: esportazione dei dati elaborati da Data Wrangler in Canvas ad Amazon S3, a un nuovo set di dati Canvas o a un modello Canvas.

  • Creazione dei modelli: addestramento dei modelli su set di dati di grandi dimensioni.

  • Inferenza: generazione di previsioni su set di dati di grandi dimensioni.

Per impostazione predefinita, SageMaker Canvas utilizza EMR Serverless per eseguire questi lavori remoti con le seguenti impostazioni dell'app:

  • Capacità preinizializzata: non configurata

  • Limiti delle applicazioni: capacità massima di 400 vCPUs, massimo 16 V simultanei CPUs per account, 3000 GB di memoria, disco da 20000 GB

  • Configurazione Metastore: AWS Glue Data Catalog

  • Registri delle applicazioni: storage AWS gestito (abilitato), utilizzando una AWS chiave di crittografia proprietaria

  • Comportamento dell’applicazione: si avvia automaticamente quando viene inviato il processo e si arresta automaticamente se l’applicazione resta inattiva per 15 minuti

Per abilitare queste funzionalità di elaborazione di dati di grandi dimensioni, gli utenti necessitano delle autorizzazioni necessarie, che possono essere concesse tramite le impostazioni del dominio Amazon SageMaker AI. Il metodo per concedere queste autorizzazioni dipende dalla configurazione iniziale del dominio Amazon SageMaker AI. Tratteremo tre scenari principali:

  • Configurazione rapida del dominio

  • Configurazione personalizzata del dominio (con access/without VPC Internet pubblico)

  • Configurazione personalizzata del dominio (con VPC e senza accesso pubblico a Internet)

Ogni scenario richiede passaggi specifici per garantire che gli utenti dispongano delle autorizzazioni necessarie per sfruttare EMR Serverless per l'elaborazione di dati di grandi dimensioni durante l'intero ciclo di vita dell'apprendimento automatico in Canvas. SageMaker

Scenario 1. Configurazione rapida del dominio

Se hai utilizzato l'opzione di configurazione rapida durante la creazione del tuo dominio SageMaker AI, segui questi passaggi:

  1. Passa alle impostazioni del dominio Amazon SageMaker AI:

    1. Apri la console Amazon SageMaker AI all'indirizzo https://console.aws.amazon.com/sagemaker/.

    2. Nel riquadro di navigazione a sinistra, scegli Domains (Domini).

    3. Scegli il tuo dominio.

    4. Scegli la scheda Configurazioni app.

    5. Scorri fino alla sezione Canvas e scegli Modifica.

  2. Abilita l’elaborazione di grandi quantità di dati:

    1. Nella sezione Configurazione di elaborazione di grandi quantità di dati, attiva Abilita EMR Serverless per l’elaborazione di grandi quantità di dati.

    2. Crea o seleziona un ruolo EMR Serverless:

      1. Scegli Crea e utilizza un nuovo ruolo di esecuzione per creare un nuovo ruolo IAM che abbia una relazione di attendibilità con EMR Serverless e la policy AWSpolitica gestita: AmazonSageMakerCanvas EMRServerless ExecutionRolePolicy collegata. Questo ruolo IAM viene assunto da Canvas per creare processi EMR Serverless.

      2. In alternativa, se hai già un ruolo di esecuzione con una relazione di attendibilità per EMR Serverless, seleziona Utilizza un ruolo di esecuzione esistente e scegli il ruolo dall’elenco a discesa.

        • Il nome del ruolo esistente deve iniziare con il prefisso AmazonSageMakerCanvasEMRSExecutionAccess-.

        • Inoltre, il ruolo selezionato deve avere almeno le autorizzazioni descritte nella policy AWSpolitica gestita: AmazonSageMakerCanvas EMRServerless ExecutionRolePolicy.

        • Il ruolo deve avere una policy di attendibilità EMR Serverless, come illustrato di seguito:

          JSON
          { "Version":"2012-10-17", "Statement": [ { "Sid": "EMRServerlessTrustPolicy", "Effect": "Allow", "Principal": { "Service": "emr-serverless.amazonaws.com" }, "Action": "sts:AssumeRole", "Condition": { "StringEquals": { "aws:SourceAccount": "111122223333" } } } ] }
  3. (Facoltativo) Aggiungi le autorizzazioni Amazon S3 per i bucket Amazon S3 personalizzati:

    1. La policy gestita da Canvas concede automaticamente le autorizzazioni di lettura e scrittura per i bucket Amazon S3 con sagemaker o SageMaker AI nel nome. Concede inoltre le autorizzazioni di lettura per gli oggetti nei bucket Amazon S3 personalizzati con il tag "SageMaker": "true".

    2. Per i bucket Amazon S3 personalizzati senza il tag richiesto, aggiungi la policy seguente al tuo ruolo EMR Serverless:

    3. JSON
      { "Version":"2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:GetObject", "s3:PutObject", "s3:DeleteObject" ], "Resource": [ "arn:aws:s3:::*" ] } ] }
    4. Ti consigliamo di limitare le autorizzazioni agli specifici bucket Amazon S3 a cui desideri che Canvas acceda.

  4. Salva le modifiche e riavvia l'applicazione SageMaker Canvas.

Scenario 2: configurazione personalizzata del dominio (con access/without VPC Internet pubblico)

Se hai creato o utilizzi un dominio personalizzato, segui le fasi 1-3 dello Scenario 1, quindi completa queste fasi aggiuntive:

  1. Aggiungi le autorizzazioni per l'DescribeImagesoperazione Amazon ECR al tuo ruolo di esecuzione di Amazon SageMaker AI, poiché Canvas utilizza immagini Docker pubbliche di Amazon ECR per la preparazione dei dati e l'addestramento dei modelli:

    1. Accedi alla AWS console e apri la console IAM all'indirizzo. https://console.aws.amazon.com/iam/

    2. Scegli Ruoli.

    3. Nella casella di ricerca, cerca il tuo ruolo di esecuzione SageMaker AI per nome e selezionalo.

    4. Aggiungi la seguente policy al tuo ruolo di esecuzione dell' SageMaker IA. Per farlo, puoi aggiungerla come nuova policy inline oppure puoi aggiungere l’istruzione di policy a una policy esistente. Tieni presente che a un ruolo IAM può essere collegato al massimo a dieci policy.

      JSON
      { "Version":"2012-10-17", "Statement": [{ "Sid": "ECRDescribeImagesOperation", "Effect": "Allow", "Action": "ecr:DescribeImages", "Resource": [ "arn:aws:ecr:*:*:repository/sagemaker-data-wrangler-emr-container", "arn:aws:ecr:*:*:repository/ap-dataprep-emr" ] }] }
  2. Salva le modifiche e riavvia l'applicazione SageMaker Canvas.

Scenario 3. Configurazione personalizzata del dominio (con VPC e senza accesso pubblico a Internet)

Se hai creato o utilizzi un dominio personalizzato, segui tutte le fasi dello Scenario 2, quindi completa queste fasi aggiuntive:

  1. Assicurati che le sottoreti VPC siano private:

    1. Verifica che la tabella di routing per le sottoreti non abbia una mappatura delle voci 0.0.0.0/0 a un gateway Internet.

  2. Aggiungi le autorizzazioni per la creazione di interfacce di rete:

    1. Quando si utilizza SageMaker Canvas con EMR Serverless per l'elaborazione di dati su larga scala, EMR Serverless richiede la possibilità di creare Amazon per EC2 ENIs abilitare la comunicazione di rete tra le applicazioni EMR Serverless e le risorse VPC.

    2. Aggiungi la seguente policy al tuo ruolo di esecuzione di Amazon SageMaker AI. Per farlo, puoi aggiungerla come nuova policy inline oppure puoi aggiungere l’istruzione di policy a una policy esistente. Tieni presente che a un ruolo IAM può essere collegato al massimo a dieci policy.

      JSON
      { "Version":"2012-10-17", "Statement": [ { "Sid": "AllowEC2ENICreation", "Effect": "Allow", "Action": [ "ec2:CreateNetworkInterface" ], "Resource": [ "arn:aws:ec2:*:*:network-interface/*" ], "Condition": { "StringEquals": { "aws:CalledViaLast": "ops.emr-serverless.amazonaws.com" } } } ] }
  3. (Facoltativo) Limita la creazione di ENI a sottoreti specifiche:

    1. Per proteggere ulteriormente la tua configurazione limitando la creazione di determinate sottoreti ENIs all'interno del tuo VPC, puoi etichettare ogni sottorete con condizioni specifiche.

    2. Utilizza la seguente policy IAM per garantire che le applicazioni EMR Serverless possano creare Amazon solo EC2 ENIs all'interno delle sottoreti e dei gruppi di sicurezza consentiti:

      { "Sid": "AllowEC2ENICreationInSubnetAndSecurityGroupWithEMRTags", "Effect": "Allow", "Action": [ "ec2:CreateNetworkInterface" ], "Resource": [ "arn:aws:ec2:*:*:subnet/*", "arn:aws:ec2:*:*:security-group/*" ], "Condition": { "StringEquals": { "aws:ResourceTag/KEY": "VALUE" } } }
  4. Segui i passaggi indicati nella pagina Configura Amazon SageMaker Canvas in un VPC senza accesso a Internet per impostare l'endpoint VPC per Amazon S3, richiesto da EMR Serverless e da altri servizi utilizzati da Canvas. AWS SageMaker

  5. Salva le modifiche e riavvia l'applicazione Canvas. SageMaker

Seguendo questi passaggi, puoi abilitare l'elaborazione di dati di grandi dimensioni in SageMaker Canvas per varie configurazioni di dominio, incluse quelle con configurazioni VPC personalizzate. Ricordati di riavviare l'applicazione SageMaker Canvas dopo aver apportato queste modifiche per applicare le nuove autorizzazioni.