Configurazione della pipeline

Si consiglia di utilizzare il file di configurazione SageMaker AI per impostare i valori predefiniti per la pipeline. Per informazioni sul file di configurazione SageMaker AI, consulta Configurazione e utilizzo dei valori predefiniti con Python SageMaker SDK. Qualsiasi configurazione aggiunta al file di configurazione si applica a tutte le fasi della pipeline. Per sostituire le opzioni di una qualsiasi fase, fornisci nuovi valori negli argomenti decoratore @step. L’argomento seguente descrive come impostare un file di configurazione.

La configurazione del decoratore @step nel file di configurazione è identica a quella del decoratore @remote. Per impostare l’ARN del ruolo della pipeline e i tag della pipeline nel file di configurazione, utilizza la sezione Pipeline mostrata nel seguente frammento:


SchemaVersion: '1.0'
SageMaker:
  Pipeline:
    RoleArn: 'arn:aws:iam::555555555555:role/IMRole'
    Tags:
    - Key: 'tag_key'
      Value: 'tag_value'

Per la maggior parte delle impostazioni predefinite nel file di configurazione, puoi eseguire la sostituzione anche passando nuovi valori al decoratore @step. Ad esempio, puoi sostituire il tipo di istanza impostato nel file di configurazione per la fase di pre-elaborazione, come illustrato nell’esempio seguente:


@step(instance_type="ml.m5.large")
def preprocess(raw_data):
    df = pandas.read_csv(raw_data)
    ...
    return procesed_dataframe

Alcuni argomenti non fanno parte dell'elenco dei parametri del @step decoratore: possono essere configurati per l'intera pipeline solo tramite il file di configurazione AI. SageMaker Sono elencati qui di seguito:

sagemaker_session(sagemaker.session.Session): La sessione SageMaker AI sottostante a cui l'IA delega le chiamate di servizio SageMaker . Se non è specificata, viene creata una sessione con una configurazione predefinita come descritto di seguito:
```
SageMaker:
  PythonSDK:
    Modules:
      Session:
        DefaultS3Bucket: 'default_s3_bucket'
        DefaultS3ObjectKeyPrefix: 'key_prefix'
```
custom_file_filter (CustomFileFilter): un oggetto CustomFileFilter che specifica le directory e i file locali da includere nella fase della pipeline. Se non è specificato, il valore predefinito è None. Affinché custom_file_filter abbia effetto, è necessario impostare IncludeLocalWorkdir su True. L’esempio seguente mostra una configurazione che ignora tutti i file del notebook, nonché i file e le directory denominati data.
```
SchemaVersion: '1.0'
SageMaker:
  PythonSDK:
    Modules:
      RemoteFunction:
        IncludeLocalWorkDir: true
        CustomFileFilter: 
          IgnoreNamePatterns: # files or directories to ignore
          - "*.ipynb" # all notebook files
          - "data" # folder or file named "data"
```
Per ulteriori dettagli su come utilizzare IncludeLocalWorkdir con CustomFileFilter, consulta Utilizzo del codice modulare con il decoratore @remote.
s3_root_uri (str): La cartella principale di Amazon S3 in cui SageMaker AI carica gli archivi e i dati del codice. Se non specificato, viene utilizzato il bucket SageMaker AI predefinito.
s3_kms_key (str): la chiave utilizzata per crittografare i dati di input e output. È possibile configurare questo argomento solo nel file di configurazione SageMaker AI e l'argomento si applica a tutti i passaggi definiti nella pipeline. Se non specificato, il valore predefinito è None. Vedi il frammento seguente per un esempio di configurazione della chiave S3 KMS:
```
SchemaVersion: '1.0'
SageMaker:
  PythonSDK:
    Modules:
      RemoteFunction:
        S3KmsKeyId: 's3kmskeyid'
        S3RootUri: 's3://amzn-s3-demo-bucket/my-project
```

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Esecuzione di una pipeline

Best practice