Configurazione della pipeline - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Configurazione della pipeline

Si consiglia di utilizzare il file di configurazione SageMaker AI per impostare i valori predefiniti per la pipeline. Per informazioni sul file di configurazione SageMaker AI, consulta Configurazione e utilizzo dei valori predefiniti con Python SageMaker SDK. Qualsiasi configurazione aggiunta al file di configurazione si applica a tutte le fasi della pipeline. Per sostituire le opzioni di una qualsiasi fase, fornisci nuovi valori negli argomenti decoratore @step. L’argomento seguente descrive come impostare un file di configurazione.

La configurazione del decoratore @step nel file di configurazione è identica a quella del decoratore @remote. Per impostare l’ARN del ruolo della pipeline e i tag della pipeline nel file di configurazione, utilizza la sezione Pipeline mostrata nel seguente frammento:

SchemaVersion: '1.0' SageMaker: Pipeline: RoleArn: 'arn:aws:iam::555555555555:role/IMRole' Tags: - Key: 'tag_key' Value: 'tag_value'

Per la maggior parte delle impostazioni predefinite nel file di configurazione, puoi eseguire la sostituzione anche passando nuovi valori al decoratore @step. Ad esempio, puoi sostituire il tipo di istanza impostato nel file di configurazione per la fase di pre-elaborazione, come illustrato nell’esempio seguente:

@step(instance_type="ml.m5.large") def preprocess(raw_data): df = pandas.read_csv(raw_data) ... return procesed_dataframe

Alcuni argomenti non fanno parte dell'elenco dei parametri del @step decoratore: possono essere configurati per l'intera pipeline solo tramite il file di configurazione AI. SageMaker Sono elencati qui di seguito:

  • sagemaker_session(sagemaker.session.Session): La sessione SageMaker AI sottostante a cui l'IA delega le chiamate di servizio SageMaker . Se non è specificata, viene creata una sessione con una configurazione predefinita come descritto di seguito:

    SageMaker: PythonSDK: Modules: Session: DefaultS3Bucket: 'default_s3_bucket' DefaultS3ObjectKeyPrefix: 'key_prefix'
  • custom_file_filter (CustomFileFilter): un oggetto CustomFileFilter che specifica le directory e i file locali da includere nella fase della pipeline. Se non è specificato, il valore predefinito è None. Affinché custom_file_filter abbia effetto, è necessario impostare IncludeLocalWorkdir su True. L’esempio seguente mostra una configurazione che ignora tutti i file del notebook, nonché i file e le directory denominati data.

    SchemaVersion: '1.0' SageMaker: PythonSDK: Modules: RemoteFunction: IncludeLocalWorkDir: true CustomFileFilter: IgnoreNamePatterns: # files or directories to ignore - "*.ipynb" # all notebook files - "data" # folder or file named "data"

    Per ulteriori dettagli su come utilizzare IncludeLocalWorkdir con CustomFileFilter, consulta Utilizzo del codice modulare con il decoratore @remote.

  • s3_root_uri (str): La cartella principale di Amazon S3 in cui SageMaker AI carica gli archivi e i dati del codice. Se non specificato, viene utilizzato il bucket SageMaker AI predefinito.

  • s3_kms_key (str): la chiave utilizzata per crittografare i dati di input e output. È possibile configurare questo argomento solo nel file di configurazione SageMaker AI e l'argomento si applica a tutti i passaggi definiti nella pipeline. Se non specificato, il valore predefinito è None. Vedi il frammento seguente per un esempio di configurazione della chiave S3 KMS:

    SchemaVersion: '1.0' SageMaker: PythonSDK: Modules: RemoteFunction: S3KmsKeyId: 's3kmskeyid' S3RootUri: 's3://amzn-s3-demo-bucket/my-project