(Optional) Migrieren von Daten von Studio Classic zu Studio - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

(Optional) Migrieren von Daten von Studio Classic zu Studio

Studio Classic und Studio verwenden zwei verschiedene Arten von Speicher-Volumes. Studio Classic verwendet ein einziges Volume von Amazon Elastic File System (Amazon EFS), um Daten aller Benutzer und gemeinsam genutzter Bereiche in der Domain zu speichern. In Studio erhält jeder Bereich sein eigenes Volume von Amazon Elastic Block Store (Amazon EBS). Wenn Sie die Standarderfahrung einer vorhandenen Domain aktualisieren, hängt SageMaker AI automatisch einen Ordner in einem Amazon EFS-Volume für jeden Benutzer in einer Domain ein. Dadurch können Benutzer in ihren Studio-Anwendungen auf Dateien aus Studio Classic zugreifen. Weitere Informationen finden Sie unter Automatisches Mounten von Amazon EFS in Studio.

Sie können auch das automatische Mounting von Amazon EFS deaktivieren und die Daten manuell migrieren, um Benutzern Zugriff auf Dateien aus Studio Classic in Studio-Anwendungen zu gewähren. Um dies zu erreichen, müssen Sie die Dateien aus den Home-Verzeichnissen der Benutzer auf die Amazon-EBS-Volumes übertragen, die diesen Bereichen zugeordnet sind. Der folgende Abschnitt enthält Informationen zu diesem Workflow. Weitere Informationen zum Abmelden vom automatischen Mounting von Amazon EFS finden Sie unter Deaktivieren des automatischen Mountings von Amazon EFS.

Manuelles Migrieren all Ihrer Daten aus Studio Classic

Im folgenden Abschnitt wird beschrieben, wie Sie alle Daten von Ihrem Studio-Classic-Speichervolume auf die neue Studio-Konfiguration migrieren.

Bei der manuellen Migration der Daten, des Codes und der Artefakte eines Benutzers von Studio Classic nach Studio empfehlen wir einen der folgenden Ansätze:

  1. Verwenden eines benutzerdefinierten Amazon-EFS-Volumes

  2. Verwenden von Amazon Simple Storage Service (Amazon S3)

Wenn Sie Amazon SageMaker Data Wrangler in Studio Classic verwendet haben und Ihre Datenflussdateien migrieren möchten, wählen Sie eine der folgenden Migrationsoptionen:

  • Wenn Sie alle Daten von Ihrem Studio-Classic-Speichervolume migrieren möchten, einschließlich Ihrer Datenflussdateien, gehen Sie zu Manuelles Migrieren all Ihrer Daten aus Studio Classic und vervollständigen Sie den Abschnitt Verwenden von Amazon S3 zum Migrieren von Daten. Fahren Sie dann mit dem Abschnitt Importieren der Flow-Dateien in Canvas fort.

  • Wenn Sie nur Ihre Datenflussdateien und keine anderen Daten von Ihrem Studio-Classic-Speichervolume migrieren möchten, fahren Sie mit dem Abschnitt Migrieren von Datenflüssen aus Data Wrangler fort.

Voraussetzungen

Bevor Sie diese Schritte ausführen, erfüllen Sie die Voraussetzungen in Erfüllen der Voraussetzungen für die Migration der Studio-Konfiguration. Sie müssen auch die Schritte unter Migrieren der Benutzeroberfläche von Studio Classic zu Studio ausführen.

Auswahl des Ansatzes

Beachten Sie bei der Auswahl eines Ansatzes für die Migration Ihrer Studio-Classic-Daten Folgendes.

Vor- und Nachteile der Verwendung eines benutzerdefinierten Amazon-EFS-Volumes

Bei diesem Ansatz verwenden Sie eine Amazon EFS-to-Amazon AWS DataSync EFS-Aufgabe (einmalig oder in regelmäßigen Abständen), um Daten zu kopieren und anschließend das Amazon EFS-Zielvolume in die Bereiche eines Benutzers einzubinden. Dadurch erhalten Benutzer Zugriff auf Daten aus Studio Classic in ihren Studio-Datenverarbeitungsumgebungen.

Vorteile:

  • In den Bereichen des Benutzers sind nur die Stammverzeichnisdaten des Benutzers sichtbar. Es findet keine Cross-Pollination der Daten statt.

  • Die Synchronisierung vom Amazon EFS-Quellvolume mit einem Amazon EFS-Zielvolume ist sicherer, als das von SageMaker KI verwaltete Amazon EFS-Quellvolume direkt in Spaces einzubinden. Dadurch wird die Gefahr einer Beeinträchtigung der Benutzerdateien im Stammverzeichnis vermieden.

  • Benutzer haben die Flexibilität, weiterhin in Studio-Classic- und Studio-Anwendungen zu arbeiten und gleichzeitig ihre Daten in beiden Anwendungen verfügbar zu haben, wenn AWS DataSync in regelmäßigen Abständen eingerichtet ist.

  • Mit Amazon S3 ist kein wiederholtes Übertragen und Abrufen erforderlich.

Nachteile:

  • Kein Schreibzugriff auf das Amazon-EFS-Zielvolume, das in die Bereiche des Benutzers eingebunden ist. Um Schreibzugriff auf das Ziel-Amazon-EFS-Volume zu erhalten, müssen Kunden das Ziel-Amazon-EFS-Volume in einer Instance von Amazon Elastic Compute Cloud mounten und den Benutzern die entsprechenden Berechtigungen zum Schreiben in das Amazon-EFS-Präfix erteilen.

  • Erfordert eine Änderung der von SageMaker KI verwalteten Sicherheitsgruppen, um eingehenden und ausgehenden Datenfluss über das Netzwerkdateisystem (NFS) zu ermöglichen.

  • Kostet mehr als die Nutzung von Amazon S3.

  • Wenn Sie Datenflüsse aus Data Wrangler in Studio Classic migrieren, müssen Sie die Schritte zum manuellen Exportieren von Flow-Dateien befolgen.

Vor- und Nachteile der Verwendung von Amazon S3

Bei diesem Ansatz verwenden Sie eine Amazon EFS-to-Amazon AWS DataSync S3-Aufgabe (einmalig oder in regelmäßigen Abständen), um Daten zu kopieren, und erstellen dann eine Lebenszykluskonfiguration, um die Daten des Benutzers von Amazon S3 auf das Amazon EBS-Volume seines privaten Bereichs zu kopieren.

Vorteile:

  • Wenn das LCC mit der Domain verbunden ist, können Benutzer wählen, ob sie das LCC zum Kopieren von Daten in ihren Bereich verwenden oder den Bereich ohne LCC-Skript ausführen möchten. Dadurch haben Benutzer die Wahl, ihre Dateien nur in die Bereiche zu kopieren, die sie benötigen.

  • Wenn eine AWS DataSync Aufgabe in regelmäßigen Abständen eingerichtet wird, können Benutzer ihre Studio-Anwendung neu starten, um die neuesten Dateien abzurufen.

  • Da die Daten nach Amazon EBS kopiert werden, haben Benutzer Schreibberechtigungen für die Dateien.

  • Der Amazon-S3-Speicher ist günstiger als Amazon EFS.

  • Wenn Sie Datenflüsse aus Data Wrangler in Studio Classic migrieren, können Sie die manuellen Exportschritte überspringen und die Datenflüsse direkt von Amazon S3 in SageMaker Canvas importieren.

Nachteile:

  • Wenn Administratoren Cross-Pollination verhindern müssen, müssen sie AWS Identity and Access Management -Richtlinien auf Benutzerebene erstellen, um sicherzustellen, dass Benutzer nur auf das Amazon-S3-Präfix zugreifen können, das ihre Dateien enthält.

Bei diesem Ansatz verwenden Sie ein Amazon EFS-to-Amazon EFS, AWS DataSync um den Inhalt eines Studio Classic Amazon EFS-Volumes einmal oder in regelmäßigen Abständen auf ein Amazon EFS-Zielvolume zu kopieren und dann das Amazon EFS-Zielvolume in die Spaces eines Benutzers einzubinden. Dadurch erhalten Benutzer Zugriff auf Daten aus Studio Classic in ihren Studio-Datenverarbeitungsumgebungen.

  1. Erstellen Sie ein Amazon-EFS-Zielvolume. Sie übertragen Daten in dieses Amazon-EFS-Volume und binden es mithilfe der Präfix-Ebene in den Bereichs eines entsprechenden Benutzers ein.

    export SOURCE_DOMAIN_ID="domain-id" export AWS_REGION="region" export TARGET_EFS=$(aws efs create-file-system --performance-mode generalPurpose --throughput-mode bursting --encrypted --region $REGION | jq -r '.FileSystemId') echo "Target EFS volume Created: $TARGET_EFS"
  2. Fügen Sie Variablen für das Amazon-EFS-Quellvolume hinzu, das derzeit an die Domain angehängt und von allen Benutzern verwendet wird. Die Informationen von Amazon Virtual Private Cloud der Domain sind erforderlich, um sicherzustellen, dass das Ziel-Amazon-EFS in derselben Amazon VPC und demselben Subnetz mit derselben Sicherheitsgruppenkonfiguration erstellt wird.

    export SOURCE_EFS=$(aws sagemaker describe-domain --domain-id $SOURCE_DOMAIN_ID | jq -r '.HomeEfsFileSystemId') export VPC_ID=$(aws sagemaker describe-domain --domain-id $SOURCE_DOMAIN_ID | jq -r '.VpcId') echo "EFS managed by SageMaker: $SOURCE_EFS | VPC: $VPC_ID"
  3. Erstellen Sie ein Amazon-EFS-Mount-Ziel in derselben Amazon VPC und demselben Subnetz wie das Amazon-EFS-Quellvolume mit derselben Sicherheitsgruppenkonfiguration. Es kann einige Minuten dauern, bis das Mount-Ziel verfügbar ist.

    export EFS_VPC_ID=$(aws efs describe-mount-targets --file-system-id $SOURCE_EFS | jq -r ".MountTargets[0].VpcId") export EFS_AZ_NAME=$(aws efs describe-mount-targets --file-system-id $SOURCE_EFS | jq -r ".MountTargets[0].AvailabilityZoneName") export EFS_AZ_ID=$(aws efs describe-mount-targets --file-system-id $SOURCE_EFS | jq -r ".MountTargets[0].AvailabilityZoneId") export EFS_SUBNET_ID=$(aws efs describe-mount-targets --file-system-id $SOURCE_EFS | jq -r ".MountTargets[0].SubnetId") export EFS_MOUNT_TARG_ID=$(aws efs describe-mount-targets --file-system-id $SOURCE_EFS | jq -r ".MountTargets[0].MountTargetId") export EFS_SG_IDS=$(aws efs describe-mount-target-security-groups --mount-target-id $EFS_MOUNT_TARG_ID | jq -r '.SecurityGroups[]') aws efs create-mount-target \ --file-system-id $TARGET_EFS \ --subnet-id $EFS_SUBNET_ID \ --security-groups $EFS_SG_IDS
  4. Erstellen Sie Amazon EFS-Quell- und Zielorte für die AWS DataSync Aufgabe.

    export SOURCE_EFS_ARN=$(aws efs describe-file-systems --file-system-id $SOURCE_EFS | jq -r ".FileSystems[0].FileSystemArn") export TARGET_EFS_ARN=$(aws efs describe-file-systems --file-system-id $TARGET_EFS | jq -r ".FileSystems[0].FileSystemArn") export EFS_SUBNET_ID_ARN=$(aws ec2 describe-subnets --subnet-ids $EFS_SUBNET_ID | jq -r ".Subnets[0].SubnetArn") export ACCOUNT_ID=$(aws ec2 describe-security-groups --group-id $EFS_SG_IDS | jq -r ".SecurityGroups[0].OwnerId") export EFS_SG_ID_ARN=arn:aws:ec2:$REGION:$ACCOUNT_ID:security-group/$EFS_SG_IDS export SOURCE_LOCATION_ARN=$(aws datasync create-location-efs --subdirectory "/" --efs-filesystem-arn $SOURCE_EFS_ARN --ec2-config SubnetArn=$EFS_SUBNET_ID_ARN,SecurityGroupArns=$EFS_SG_ID_ARN --region $REGION | jq -r ".LocationArn") export DESTINATION_LOCATION_ARN=$(aws datasync create-location-efs --subdirectory "/" --efs-filesystem-arn $TARGET_EFS_ARN --ec2-config SubnetArn=$EFS_SUBNET_ID_ARN,SecurityGroupArns=$EFS_SG_ID_ARN --region $REGION | jq -r ".LocationArn")
  5. Lassen Sie den Datenverkehr zwischen den Quell- und Ziel-Mounts des Netzwerkdateisystems (NFS) zu. Wenn eine neue Domain erstellt wird, erstellt SageMaker AI zwei Sicherheitsgruppen.

    • Eingehende NFS-Sicherheitsgruppe mit ausschließlich eingehendem Datenverkehr.

    • Ausgehende NFS-Sicherheitsgruppe mit ausschließlich ausgehendem Datenverkehr.

    Das Quell- und das Ziel-NFS befinden sich in denselben Sicherheitsgruppen. Sie können den Verkehr zwischen diesen Mounts vom AWS-Managementkonsole oder AWS CLI aus zulassen.

    • Erlaube Verkehr von AWS-Managementkonsole

      1. Melden Sie sich bei der an AWS-Managementkonsole und öffnen Sie die Amazon VPC-Konsole unter https://console.aws.amazon.com/vpc/.

      2. Wählen Sie Security Groups.

      3. Suchen Sie auf der Seite Sicherheitsgruppen nach der ID der vorhandenen Domain.

        d-xxxxxxx

        Die Ergebnisse sollten zwei Sicherheitsgruppen zurückgeben, deren Name die Domain-ID enthält.

        • security-group-for-inbound-nfs-domain-id

        • security-group-for-outbound-nfs-domain-id

      4. Wählen Sie die eingehende Sicherheitsgruppen-ID aus. Dadurch wird eine neue Seite mit Details zur Sicherheitsgruppe geöffnet.

      5. Wählen Sie die Registerkarte Ausgehende Regeln aus.

      6. Wählen Sie Ausgehende Regeln bearbeiten aus.

      7. Aktualisieren Sie die vorhandenen Regeln für ausgehenden Datenverkehr oder fügen Sie eine neue Regel für ausgehenden Datenverkehr mit den folgenden Werten hinzu:

        • Typ: NFS

        • Protocol (Protokoll): TCP

        • Portbereich: 2049

        • Ziel: security-group-for-outbound -nfs- | domain-id security-group-id

      8. Wählen Sie Regeln speichern aus.

      9. Wählen Sie die Registerkarte Regeln für eingehenden Datenverkehr aus.

      10. Wählen Sie Regeln für ausgehenden Datenverkehr bearbeiten aus.

      11. Aktualisieren Sie die vorhandenen Regeln für eingehenden Datenverkehr oder fügen Sie eine neue Regel für ausgehenden Datenverkehr mit den folgenden Werten hinzu:

        • Typ: NFS

        • Protocol (Protokoll): TCP

        • Portbereich: 2049

        • Ziel: security-group-for-outbound -nfs- | domain-id security-group-id

      12. Wählen Sie Regeln speichern aus.

    • Erlaube Verkehr von AWS CLI

      1. Aktualisieren Sie die Regeln für eingehenden und ausgehenden Datenverkehr der Sicherheitsgruppe mit den folgenden Werten:

        • Protocol (Protokoll): TCP

        • Portbereich: 2049

        • Gruppen-ID: Sicherheitsgruppen-ID für eingehenden Datenverkehr oder Sicherheitsgruppen-ID für ausgehenden Datenverkehr

        export INBOUND_SG_ID=$(aws ec2 describe-security-groups --filters "Name=group-name,Values=security-group-for-inbound-nfs-$SOURCE_DOMAIN_ID" | jq -r ".SecurityGroups[0].GroupId") export OUTBOUND_SG_ID=$(aws ec2 describe-security-groups --filters "Name=group-name,Values=security-group-for-outbound-nfs-$SOURCE_DOMAIN_ID" | jq -r ".SecurityGroups[0].GroupId") echo "Outbound SG ID: $OUTBOUND_SG_ID | Inbound SG ID: $INBOUND_SG_ID" aws ec2 authorize-security-group-egress \ --group-id $INBOUND_SG_ID \ --protocol tcp --port 2049 \ --source-group $OUTBOUND_SG_ID aws ec2 authorize-security-group-ingress \ --group-id $OUTBOUND_SG_ID \ --protocol tcp --port 2049 \ --source-group $INBOUND_SG_ID
      2. Fügen Sie sowohl die eingehenden als auch die ausgehenden Sicherheitsgruppen zu den Quell- und Ziel-Mount-Zielen von Amazon EFS hinzu. Dies ermöglicht den Datenverkehr zwischen den beiden Amazon-EFS-Mounts.

        export SOURCE_EFS_MOUNT_TARGET=$(aws efs describe-mount-targets --file-system-id $SOURCE_EFS | jq -r ".MountTargets[0].MountTargetId") export TARGET_EFS_MOUNT_TARGET=$(aws efs describe-mount-targets --file-system-id $TARGET_EFS | jq -r ".MountTargets[0].MountTargetId") aws efs modify-mount-target-security-groups \ --mount-target-id $SOURCE_EFS_MOUNT_TARGET \ --security-groups $INBOUND_SG_ID $OUTBOUND_SG_ID aws efs modify-mount-target-security-groups \ --mount-target-id $TARGET_EFS_MOUNT_TARGET \ --security-groups $INBOUND_SG_ID $OUTBOUND_SG_ID
  6. Erstellen Sie eine AWS DataSync Aufgabe. Dadurch wird eine Aufgaben-ARN zurückgegeben, die verwendet werden kann, um die Aufgabe bei Bedarf oder als Teil eines regelmäßigen Rhythmus auszuführen.

    export EXTRA_XFER_OPTIONS='VerifyMode=ONLY_FILES_TRANSFERRED,OverwriteMode=ALWAYS,Atime=NONE,Mtime=NONE,Uid=NONE,Gid=NONE,PreserveDeletedFiles=REMOVE,PreserveDevices=NONE,PosixPermissions=NONE,TaskQueueing=ENABLED,TransferMode=CHANGED,SecurityDescriptorCopyFlags=NONE,ObjectTags=NONE' export DATASYNC_TASK_ARN=$(aws datasync create-task --source-location-arn $SOURCE_LOCATION_ARN --destination-location-arn $DESTINATION_LOCATION_ARN --name "SMEFS_to_CustomEFS_Sync" --region $REGION --options $EXTRA_XFER_OPTIONS | jq -r ".TaskArn")
  7. Starten Sie eine AWS DataSync Aufgabe, um Daten automatisch vom Amazon EFS-Quell-Mount in den Amazon EFS-Ziel-Mount zu kopieren. Dadurch bleiben die POSIX-Berechtigungen der Datei nicht erhalten, sodass Benutzer zwar aus dem Amazon-EFS-Ziel-Mount lesen, aber nicht in diesen schreiben können.

    aws datasync start-task-execution --task-arn $DATASYNC_TASK_ARN
  8. Mounten Sie das Amazon-EFS-Zielvolume auf der Root-Ebene auf der Domain.

    aws sagemaker update-domain --domain-id $SOURCE_DOMAIN_ID \ --default-user-settings '{"CustomFileSystemConfigs": [{"EFSFileSystemConfig": {"FileSystemId": "'"$TARGET_EFS"'", "FileSystemPath": "/"}}]}'
  9. Überschreiben Sie jedes Benutzerprofil mit einem FileSystemPath-Präfix. Das Präfix beinhaltet die UID des Benutzers, die von SageMaker AI erstellt wird. Dadurch wird sichergestellt, dass Benutzer nur Zugriff auf ihre Daten haben, und Cross-Pollination wird verhindert. Wenn ein Bereich in der Domain erstellt und das Amazon-EFS-Zielvolume in die Anwendung eingebunden wird, überschreibt das Präfix des Benutzers das Domainpräfix. Daher hängt SageMaker AI das /user-id Verzeichnis nur in der Anwendung des Benutzers ein.

    aws sagemaker list-user-profiles --domain-id $SOURCE_DOMAIN_ID | jq -r '.UserProfiles[] | "\(.UserProfileName)"' | while read user; do export uid=$(aws sagemaker describe-user-profile --domain-id $SOURCE_DOMAIN_ID --user-profile-name $user | jq -r ".HomeEfsFileSystemUid") echo "$user $uid" aws sagemaker update-user-profile --domain-id $SOURCE_DOMAIN_ID --user-profile-name $user --user-settings '{"CustomFileSystemConfigs": [{"EFSFileSystemConfig":{"FileSystemId": "'"$TARGET_EFS"'", "FileSystemPath": "'"/$uid/"'"}}]}' done
  10. Benutzer können dann beim Starten einer Anwendung das benutzerdefinierte Amazon-EFS-Dateisystem auswählen. Für weitere Informationen siehe JupyterLab Benutzerleitfaden oder Starten einer Code-Editor-Anwendung in Studio.

Bei diesem Ansatz verwenden Sie eine Amazon EFS-to-Amazon AWS DataSync S3-Aufgabe, um den Inhalt eines Studio Classic Amazon EFS-Volumes einmal oder in regelmäßigen Abständen in einen Amazon S3 S3-Bucket zu kopieren. Anschließend erstellen Sie eine Lebenszykluskonfiguration, um die Daten des Benutzers von Amazon S3 auf das Amazon EBS-Volume seines privaten Bereichs zu kopieren.

Anmerkung

Dieser Ansatz funktioniert nur für Domains mit Internetzugang.

  1. Geben Sie die Quellvolume-ID von Amazon EFS der Domain ein, die die Daten enthält, die Sie migrieren.

    timestamp=$(date +%Y%m%d%H%M%S) export SOURCE_DOMAIN_ID="domain-id" export AWS_REGION="region" export ACCOUNT_ID=$(aws sts get-caller-identity --query Account --output text) export EFS_ID=$(aws sagemaker describe-domain --domain-id $SOURCE_DOMAIN_ID | jq -r '.HomeEfsFileSystemId')
  2. Legen Sie den Namen des Amazon-S3-Ziel-Buckets fest. Informationen zum Erstellen eines Amazon-S3-Buckets finden Sie unter Erstellen eines Buckets. Der verwendete Bucket muss über eine CORS-Richtlinie verfügen, wie unter (Optional) Aktualisieren der CORS-Richtlinie für den Zugriff auf Amazon-S3-Buckets beschrieben. Benutzer in der Domain müssen auch über Berechtigungen für den Zugriff auf den Amazon-S3-Bucket verfügen.

    In diesem Beispiel kopieren wir Dateien in ein Präfix mit dem Namen studio-new. Wenn Sie einen einzelnen Amazon-S3-Bucket verwenden, um mehrere Domains zu migrieren, verwenden Sie das studio-new/<domain-id>-Präfix, um die Berechtigungen für die Dateien mithilfe von IAM einzuschränken.

    export BUCKET_NAME=s3-bucket-name export S3_DESTINATION_PATH=studio-new
  3. Erstellen Sie eine Vertrauensrichtlinie, die Ihnen die AWS DataSync Erlaubnis erteilt, die Ausführungsrolle Ihres Kontos zu übernehmen.

    export TRUST_POLICY=$(cat <<EOF { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "datasync.amazonaws.com" }, "Action": "sts:AssumeRole", "Condition": { "StringEquals": { "aws:SourceAccount": "$ACCOUNT_ID" }, "ArnLike": { "aws:SourceArn": "arn:aws:datasync:$REGION:$ACCOUNT_ID:*" } } } ] } EOF )
  4. Erstellen Sie eine IAM-Rolle und fügen Sie die Vertrauensrichtlinie an.

    export timestamp=$(date +%Y%m%d%H%M%S) export ROLE_NAME="DataSyncS3Role-$timestamp" aws iam create-role --role-name $ROLE_NAME --assume-role-policy-document "$TRUST_POLICY" aws iam attach-role-policy --role-name $ROLE_NAME --policy-arn arn:aws:iam::aws:policy/AmazonS3FullAccess echo "Attached IAM Policy AmazonS3FullAccess" aws iam attach-role-policy --role-name $ROLE_NAME --policy-arn arn:aws:iam::aws:policy/AmazonSageMakerFullAccess echo "Attached IAM Policy AmazonSageMakerFullAccess" export ROLE_ARN=$(aws iam get-role --role-name $ROLE_NAME --query 'Role.Arn' --output text) echo "Created IAM Role $ROLE_ARN"
  5. Erstellen Sie eine Sicherheitsgruppe, um Zugriff auf den Amazon-EFS-Speicherort zu gewähren.

    export EFS_ARN=$(aws efs describe-file-systems --file-system-id $EFS_ID | jq -r '.FileSystems[0].FileSystemArn' ) export EFS_SUBNET_ID=$(aws efs describe-mount-targets --file-system-id $EFS_ID | jq -r '.MountTargets[0].SubnetId') export EFS_VPC_ID=$(aws efs describe-mount-targets --file-system-id $EFS_ID | jq -r '.MountTargets[0].VpcId') export MOUNT_TARGET_ID=$(aws efs describe-mount-targets --file-system-id $EFS_ID | jq -r '.MountTargets[0].MountTargetId ') export EFS_SECURITY_GROUP_ID=$(aws efs describe-mount-target-security-groups --mount-target-id $MOUNT_TARGET_ID | jq -r '.SecurityGroups[0]') export EFS_SUBNET_ARN=$(aws ec2 describe-subnets --subnet-ids $EFS_SUBNET_ID | jq -r '.Subnets[0].SubnetArn') echo "Subnet ID: $EFS_SUBNET_ID" echo "Security Group ID: $EFS_SECURITY_GROUP_ID" echo "Subnet ARN: $EFS_SUBNET_ARN" timestamp=$(date +%Y%m%d%H%M%S) sg_name="datasync-sg-$timestamp" export DATASYNC_SG_ID=$(aws ec2 create-security-group --vpc-id $EFS_VPC_ID --group-name $sg_name --description "DataSync SG" --output text --query 'GroupId') aws ec2 authorize-security-group-egress --group-id $DATASYNC_SG_ID --protocol tcp --port 2049 --source-group $EFS_SECURITY_GROUP_ID aws ec2 authorize-security-group-ingress --group-id $EFS_SECURITY_GROUP_ID --protocol tcp --port 2049 --source-group $DATASYNC_SG_ID export DATASYNC_SG_ARN="arn:aws:ec2:$REGION:$ACCOUNT_ID:security-group/$DATASYNC_SG_ID" echo "Security Group ARN: $DATASYNC_SG_ARN"
  6. Erstellen Sie einen Amazon EFS-Quellspeicherort für die AWS DataSync Aufgabe.

    export SOURCE_ARN=$(aws datasync create-location-efs --efs-filesystem-arn $EFS_ARN --ec2-config "{\"SubnetArn\": \"$EFS_SUBNET_ARN\", \"SecurityGroupArns\": [\"$DATASYNC_SG_ARN\"]}" | jq -r '.LocationArn') echo "Source Location ARN: $SOURCE_ARN"
  7. Erstellen Sie einen Amazon S3 S3-Zielstandort für die AWS DataSync Aufgabe.

    export BUCKET_ARN="arn:aws:s3:::$BUCKET_NAME" export DESTINATION_ARN=$(aws datasync create-location-s3 --s3-bucket-arn $BUCKET_ARN --s3-config "{\"BucketAccessRoleArn\": \"$ROLE_ARN\"}" --subdirectory $S3_DESTINATION_PATH | jq -r '.LocationArn') echo "Destination Location ARN: $DESTINATION_ARN"
  8. Erstellen Sie eine AWS DataSync Aufgabe.

    export TASK_ARN=$(aws datasync create-task --source-location-arn $SOURCE_ARN --destination-location-arn $DESTINATION_ARN | jq -r '.TaskArn') echo "DataSync Task: $TASK_ARN"
  9. Starte die AWS DataSync Aufgabe. Diese Aufgabe kopiert automatisch Daten vom Amazon-EFS-Quellvolume in den Ziel-Bucket von Amazon S3. Warten Sie, bis die Aufgabe abgeschlossen wurde.

    aws datasync start-task-execution --task-arn $TASK_ARN
  10. Überprüfen Sie den Status der AWS DataSync Aufgabe, um sicherzustellen, dass sie abgeschlossen ist. Übergeben Sie den im vorherigen Schritt zurückgegebenen ARN.

    export TASK_EXEC_ARN=datasync-task-arn echo "Task execution ARN: $TASK_EXEC_ARN" export STATUS=$(aws datasync describe-task-execution --task-execution-arn $TASK_EXEC_ARN | jq -r '.Status') echo "Execution status: $STATUS" while [ "$STATUS" = "QUEUED" ] || [ "$STATUS" = "LAUNCHING" ] || [ "$STATUS" = "PREPARING" ] || [ "$STATUS" = "TRANSFERRING" ] || [ "$STATUS" = "VERIFYING" ]; do STATUS=$(aws datasync describe-task-execution --task-execution-arn $TASK_EXEC_ARN | jq -r '.Status') if [ $? -ne 0 ]; then echo "Error Running DataSync Task" exit 1 fi echo "Execution status: $STATUS" sleep 30 done
  11. Nachdem die AWS DataSync Aufgabe abgeschlossen ist, bereinigen Sie die zuvor erstellten Ressourcen.

    aws datasync delete-task --task-arn $TASK_ARN echo "Deleted task $TASK_ARN" aws datasync delete-location --location-arn $SOURCE_ARN echo "Deleted location source $SOURCE_ARN" aws datasync delete-location --location-arn $DESTINATION_ARN echo "Deleted location source $DESTINATION_ARN" aws iam detach-role-policy --role-name $ROLE_NAME --policy-arn arn:aws:iam::aws:policy/AmazonS3FullAccess aws iam detach-role-policy --role-name $ROLE_NAME --policy-arn arn:aws:iam::aws:policy/AmazonSageMakerFullAccess aws iam delete-role --role-name $ROLE_NAME echo "Deleted IAM Role $ROLE_NAME" echo "Wait 5 minutes for the elastic network interface to detach..." start_time=$(date +%s) while [[ $(($(date +%s) - start_time)) -lt 300 ]]; do sleep 1 done aws ec2 revoke-security-group-ingress --group-id $EFS_SECURITY_GROUP_ID --protocol tcp --port 2049 --source-group $DATASYNC_SG_ID echo "Revoked Ingress from $EFS_SECURITY_GROUP_ID" aws ec2 revoke-security-group-egress --group-id $DATASYNC_SG_ID --protocol tcp --port 2049 --source-group $EFS_SECURITY_GROUP_ID echo "Revoked Egress from $DATASYNC_SG_ID" aws ec2 delete-security-group --group-id $DATASYNC_SG_ID echo "Deleted DataSync SG $DATASYNC_SG_ID"
  12. Erstellen Sie auf Ihrem lokalen Rechner eine Datei namens on-start.sh mit folgendem Inhalt. Dieses Skript kopiert das Amazon-EFS-Stammverzeichnis des Benutzers in Amazon S3 in das Amazon-EBS-Volume des Benutzers in Studio und erstellt ein Präfix für jedes Benutzerprofil.

    #!/bin/bash set -eo pipefail sudo apt-get install -y jq # Studio Variables DOMAIN_ID=$(cat /opt/ml/metadata/resource-metadata.json | jq -r '.DomainId') SPACE_NAME=$(cat /opt/ml/metadata/resource-metadata.json | jq -r '.SpaceName') USER_PROFILE_NAME=$(aws sagemaker describe-space --domain-id=$DOMAIN_ID --space-name=$SPACE_NAME | jq -r '.OwnershipSettings.OwnerUserProfileName') # S3 bucket to copy from BUCKET=s3-bucket-name # Subfolder in bucket to copy PREFIX=studio-new # Getting HomeEfsFileSystemUid for the current user-profile EFS_FOLDER_ID=$(aws sagemaker describe-user-profile --domain-id $DOMAIN_ID --user-profile-name $USER_PROFILE_NAME | jq -r '.HomeEfsFileSystemUid') # Local destination directory DEST=./studio-classic-efs-backup mkdir -p $DEST echo "Bucket: s3://$BUCKET/$PREFIX/$EFS_FOLDER_ID/" echo "Destination $DEST/" echo "Excluding .*" echo "Excluding .*/*" aws s3 cp s3://$BUCKET/$PREFIX/$EFS_FOLDER_ID/ $DEST/ \ --exclude ".*" \ --exclude "**/.*" \ --recursive
  13. Konvertieren Sie Ihr Skript in das base64-Format. Diese Anforderung verhindert Fehler, die bei der Kodierung von Leerzeichen und Zeilenumbrüchen auftreten. Der Skripttyp kann entweder JupyterLab oder CodeEditor sein.

    export LCC_SCRIPT_NAME='studio-classic-sync' export SCRIPT_FILE_NAME='on-start.sh' export SCRIPT_TYPE='JupyterLab-or-CodeEditor' LCC_CONTENT=`openssl base64 -A -in ${SCRIPT_FILE_NAME}`
  14. Überprüfen Sie Folgendes, bevor Sie das Skript verwenden:

    • Das Amazon-EBS-Volume ist groß genug, um die Objekte zu speichern, die Sie exportieren.

    • Sie migrieren keine ausgeblendeten Dateien und Ordner, z. B. .bashrc und .condarc, wenn Sie dies nicht beabsichtigen.

    • Für die Ausführungsrolle AWS Identity and Access Management (IAM), die mit Studio-Benutzerprofilen verknüpft ist, sind die Richtlinien so konfiguriert, dass sie nur auf das jeweilige Home-Verzeichnis in Amazon S3 zugreifen.

  15. Erstellen Sie mit Ihrem Skript eine Lebenszykluskonfiguration.

    aws sagemaker create-studio-lifecycle-config \ --studio-lifecycle-config-name $LCC_SCRIPT_NAME \ --studio-lifecycle-config-content $LCC_CONTENT \ --studio-lifecycle-config-app-type $SCRIPT_TYPE
  16. Hängen Sie das LCC an Ihre Domain an.

    aws sagemaker update-domain \ --domain-id $SOURCE_DOMAIN_ID \ --default-user-settings ' {"JupyterLabAppSettings": {"LifecycleConfigArns": [ "lifecycle-config-arn" ] } }'
  17. Benutzer können dann das LCC-Skript auswählen, wenn sie eine Anwendung starten. Für weitere Informationen siehe JupyterLab Benutzerleitfaden oder Starten einer Code-Editor-Anwendung in Studio. Dadurch werden die Dateien von Amazon S3 automatisch mit dem Amazon-EBS-Speicher für den Bereich des Benutzers synchronisiert.

Migrieren von Datenflüssen aus Data Wrangler

Wenn Sie Amazon SageMaker Data Wrangler zuvor in Amazon SageMaker Studio Classic für Datenvorbereitungsaufgaben verwendet haben, können Sie auf das neue Amazon SageMaker Studio migrieren und auf die neueste Version von Data Wrangler in Amazon Canvas zugreifen. SageMaker Data Wrangler in SageMaker Canvas bietet Ihnen eine verbesserte Benutzererfahrung und Zugriff auf die neuesten Funktionen, wie z. B. eine Benutzeroberfläche in natürlicher Sprache und eine schnellere Leistung.

Sie können jederzeit in SageMaker Canvas einsteigen, um das neue Data Wrangler-Erlebnis zu nutzen. Weitere Informationen finden Sie unter Erste Schritte mit der Verwendung von Amazon SageMaker Canvas.

Wenn Sie Datenflussdateien in Studio Classic gespeichert haben, an denen Sie zuvor gearbeitet haben, können Sie sie in Studio integrieren und die Flow-Dateien dann in Canvas importieren. Sie haben folgende Möglichkeiten für die Migration:

  • Migration mit einem Klick: Wenn Sie sich bei Canvas anmelden, können Sie eine einmalige Importoption verwenden, mit der alle Ihre Flow-Dateien in Ihrem Namen migriert werden.

  • Manuelle Migration: Sie können Ihre Flow-Dateien manuell in Canvas importieren. Exportieren Sie die Dateien von Studio Classic aus entweder nach Amazon S3 oder laden Sie sie auf Ihren lokalen Computer herunter. Anschließend melden Sie sich bei der SageMaker Canvas-Anwendung an, importieren die Flow-Dateien und setzen Ihre Datenvorbereitungsaufgaben fort.

Das folgende Handbuch beschreibt die Voraussetzungen für die Migration und wie Sie Ihre Datenflussdateien entweder mit der Ein-Klick-Option oder manuell migrieren können.

Voraussetzungen

Überprüfen Sie die folgenden Voraussetzungen, bevor Sie mit der Migration Ihrer Flow-Dateien beginnen.

Schritt 1. Migrieren der Domain und Gewähren von Berechtigungen

Bevor Sie Datenflussdateien migrieren, müssen Sie bestimmte Schritte des Migration von Amazon SageMaker Studio Classic Handbuchs befolgen, um sicherzustellen, dass die AWS IAM-Ausführungsrolle Ihres Benutzerprofils über die erforderlichen Berechtigungen verfügt. Befolgen Sie die Voraussetzungen und Migrieren der Benutzeroberfläche von Studio Classic zu Studio und konfigurieren Sie Studio als neue Umgebung, bevor Sie fortfahren. Dort wird beschrieben, wie Sie die erforderlichen Berechtigungen erteilen und Ihre bestehende Domain migrieren können.

Insbesondere benötigen Sie Berechtigungen, um eine SageMaker Canvas-Anwendung zu erstellen und die SageMaker Canvas-Datenvorbereitungsfunktionen zu verwenden. Um diese Berechtigungen zu erhalten, können Sie entweder:

Stellen Sie sicher, dass Sie dasselbe Benutzerprofil für Studio und Canvas verwenden. SageMaker

Nachdem Sie die im Migrationsleitfaden beschriebenen Voraussetzungen erfüllt haben, sollten Sie über eine neue Domain mit den erforderlichen Berechtigungen für den Zugriff auf SageMaker Canvas über Studio verfügen.

Schritt 2. (Optional) Vorbereiten eines Amazon-S3-Speicherorts

Wenn Sie eine manuelle Migration durchführen und Amazon S3 zum Übertragen Ihrer Flow-Dateien anstelle der lokalen Download-Option verwenden möchten, sollten Sie in Ihrem Konto über einen Amazon-S3-Bucket verfügen, den Sie zum Speichern der Flow-Dateien verwenden möchten.

Migrationsmethode mit einem Klick

SageMaker Canvas bietet eine einmalige Importoption für die Migration Ihrer Datenflüsse von Data Wrangler in Studio Classic zu Data Wrangler in Canvas. SageMaker Solange Ihre Studio-Classic- und Canvas-Anwendungen dasselbe Amazon-EFS-Speichervolume verwenden, können Sie mit einem Klick von Canvas migrieren. Dieser optimierte Prozess macht manuelle Export- und Importschritte überflüssig und Sie können alle Ihre Flows auf einmal importieren.

Gehen Sie wie folgt vor, um alle Ihre Flow-Dateien zu migrieren:

  1. Öffnen Sie die neueste Version von Studio.

  2. Wählen Sie in Studio im linken Navigationsbereich das Dropdown-Menü Daten aus.

  3. Wählen Sie in den Navigationsoptionen Data Wrangler aus.

  4. Wählen Sie auf der Seite Data Wrangler die Option In Canvas ausführen aus. Wenn Sie die Berechtigungen erfolgreich eingerichtet haben, wird eine Canvas-Anwendung für Sie erstellt. Es kann einige Minuten dauern, bis die Canvas-Anwendung fertig ist.

  5. Wenn Canvas bereit ist, wählen Sie In Canvas öffnen aus.

  6. Canvas öffnet die Seite Data Wrangler und oben auf der Seite erscheint ein Banner mit der Aufforderung Importieren Ihrer Datenflüsse aus Data Wrangler in Studio Classic nach Canvas. Dies ist ein einmaliger Import. Weitere Informationen. Wählen Sie im Banner die Option Alle importieren aus.

    Warnung

    Wenn Sie die Banner-Benachrichtigung schließen, können Sie sie nicht mehr erneut öffnen und die Migrationsmethode mit einem Klick nicht mehr verwenden.

Eine Popup-Benachrichtigung wird angezeigt, die darauf hinweist, dass Canvas Ihre Flow-Dateien aus Studio Classic importiert. Wenn der Import vollständig erfolgreich war, erhalten Sie eine weitere Benachrichtigung, dass die X-Anzahl der Flow-Dateien importiert wurde, und Sie können Ihre Flow-Dateien auf der Seite Data Wrangler der Canvas-Anwendung sehen. Alle importierten Flow-Dateien, die denselben Namen wie bestehende Datenflüsse in Ihrer Canvas-Anwendung haben, werden mit einem Postfix umbenannt. Sie können einen Datenfluss öffnen, um zu überprüfen, ob er wie erwartet aussieht.

Falls eine Ihrer Schemadateien nicht erfolgreich importiert werden kann, erhalten Sie eine Benachrichtigung, dass der Import entweder teilweise erfolgreich war oder fehlgeschlagen ist. Wählen Sie in der Benachrichtigung die Option Fehler anzeigen aus, um in den einzelnen Fehlermeldungen nach Anleitungen zur Neuformatierung falsch formatierter Flow-Dateien zu suchen.

Nach dem Import Ihrer Flow-Dateien sollten Sie Data Wrangler nun weiterhin verwenden können, um Daten in Canvas vorzubereiten. SageMaker

Manuelle Migrationsmethode

In den folgenden Abschnitten wird beschrieben, wie Sie Ihre Flow-Dateien manuell in Canvas importieren, falls die Migrationsmethode mit einem Klick nicht funktioniert hat.

Exportieren der Flow-Dateien aus Studio Classic

Anmerkung

Wenn Sie Ihre Studio-Classic-Daten bereits gemäß den Anweisungen in (Optional) Migrieren von Daten von Studio Classic zu Studio zu Amazon S3 migriert haben, können Sie diesen Schritt überspringen und direkt zum Importieren der Flow-Dateien in Canvas-Abschnitt übergehen, in dem Sie Ihre Flow-Dateien aus dem Amazon-S3-Speicherort importieren, an dem Ihre Studio-Classic-Daten gespeichert sind.

Sie können Ihre Flow-Dateien exportieren, indem Sie sie entweder in Amazon S3 speichern oder auf Ihren lokalen Computer herunterladen. Wenn Sie im nächsten Schritt Ihre Flow-Dateien in SageMaker Canvas importieren und die lokale Upload-Option wählen, können Sie nur 20 Flow-Dateien gleichzeitig hochladen. Wenn Sie eine große Anzahl von Flow-Dateien importieren möchten, empfehlen wir Ihnen, stattdessen Amazon S3 zu verwenden.

Folgen Sie den Anweisungen unter Methode 1: Verwenden von Amazon S3, um Flow-Dateien zu übertragen oder Methode 2: Verwenden Ihres lokalen Computers, um Flow-Dateien zu übertragen, um fortzufahren.

Methode 1: Verwenden von Amazon S3, um Flow-Dateien zu übertragen

Mit dieser Methode verwenden Sie Amazon S3 als Vermittler zwischen Data Wrangler in Studio Classic und Data Wrangler in SageMaker Canvas (Zugriff über die neueste Version von Studio). Sie exportieren die Flow-Dateien von Studio Classic nach Amazon S3 und greifen dann im nächsten Schritt über Studio auf Canvas zu und importieren die Flow-Dateien aus Amazon S3.

Stellen Sie sicher, dass ein Amazon-S3-Bucket als Speicherort für die Flow-Dateien vorbereitet ist.

Gehen Sie wie folgt vor, um Ihre Flow-Dateien von Studio Classic nach Amazon S3 zu exportieren:

  1. Öffnen Sie Studio Classic

  2. Öffnen Sie ein neues Terminal, indem Sie wie folgt vorgehen:

    1. Wählen Sie in der Navigationsleiste oben die Option Datei aus.

    2. Fahren Sie im Kontextmenü mit der Maus über Neu und wählen Sie dann Terminal aus.

  3. Standardmäßig sollte das Terminal in Ihrem Stammverzeichnis geöffnet sein. Navigieren Sie zu dem Ordner, der alle Flow-Dateien enthält, die Sie migrieren möchten.

  4. Verwenden Sie folgenden Befehl, um alle Flow-Dateien mit dem angegebenen Amazon-S3-Speicherort zu synchronisieren. Ersetzen Sie {bucket-name} und {folder} durch den Pfad zu Ihrem gewünschten Amazon-S3-Speicherort. Weitere Informationen zu dem Befehl und den Parametern finden Sie unter dem Befehl sync in der Befehlsreferenz. AWS AWS CLI

    aws s3 sync . s3://{bucket-name}/{folder}/ --exclude "*.*" --include "*.flow"

    Wenn Sie Ihren eigenen Befehl verwenden AWS KMS key, verwenden Sie stattdessen den folgenden Befehl, um die Dateien zu synchronisieren, und geben Sie Ihre KMS-Schlüssel-ID an. Stellen Sie sicher, dass der IAM-Ausführungsrolle des Benutzers (bei der es sich um dieselbe Rolle handeln sollte, die in Schritt 1. Migrieren der Domain und Gewähren von Berechtigungen der vorstehenden (Voraussetzungen verwendet wurde), der Zugriff zur Verwendung des KMS-Schlüssels gewährt wurde.

    aws s3 sync . s3://{bucket-name}/{folder}/ --exclude "*.*" --include "*.flow" --sse-kms-key-id {your-key-id}

Ihre Flow-Dateien sollten jetzt exportiert werden. Sie können Ihren Amazon-S3-Bucket überprüfen, um sicherzustellen, dass die Flow-Dateien erfolgreich synchronisiert wurden.

Um diese Dateien in die neueste Version von Data Wrangler zu importieren, folgen Sie den Schritten unter Importieren der Flow-Dateien in Canvas.

Methode 2: Verwenden Ihres lokalen Computers, um Flow-Dateien zu übertragen

Mit dieser Methode laden Sie die Flow-Dateien von Studio Classic auf Ihren lokalen Computer herunter. Sie können die Dateien direkt herunterladen oder sie als ZIP-Archiv komprimieren. Anschließend entpacken Sie die ZIP-Datei lokal (falls zutreffend), melden sich bei Canvas an und importieren die Flow-Dateien, indem Sie sie von Ihrem lokalen Computer hochladen.

Gehen Sie wie folgt vor, um Ihre Flow-Dateien von Studio Classic nach Amazon S3 herunterzuladen:

  1. Öffnen Sie Studio Classic

  2. (Optional) Wenn Sie mehrere Flow-Dateien in ein ZIP-Archiv komprimieren und alle auf einmal herunterladen möchten, gehen Sie wie folgt vor:

    1. Wählen Sie in Studio Classic in der Navigationsleiste oben die Option Datei aus.

    2. Fahren Sie im Kontextmenü mit der Maus über Neu und wählen Sie dann Terminal aus.

    3. Standardmäßig wird das Terminal in Ihrem Stammverzeichnis geöffnet. Navigieren Sie zu dem Ordner, der alle Flow-Dateien enthält, die Sie migrieren möchten.

    4. Verwenden Sie den folgenden Befehl, um die Flow-Dateien im aktuellen Verzeichnis als ZIP-Datei zu packen. Der Befehl schließt alle ausgeblendeten Dateien aus:

      find . -not -path "*/.*" -name "*.flow" -print0 | xargs -0 zip my_archive.zip
  3. Laden Sie das ZIP-Archiv oder einzelne Flow-Dateien wie folgt auf Ihren lokalen Computer herunter:

    1. Wählen Sie im linken Navigationsbereich von Studio Classic die Option Dateibrowser aus.

    2. Suchen Sie im Dateibrowser nach der Datei, die Sie herunterladen möchten.

    3. Klicken Sie mit der rechten Maustaste auf die Datei und wählen Sie im Kontextmenü die Option Herunterladen aus.

Die Datei sollte auf Ihren lokalen Computer heruntergeladen werden. Wenn Sie sie als ZIP-Archiv gepackt haben, extrahieren Sie die Dateien lokal. Nach dem Extrahieren der Dateien folgen Sie den Schritten unter Importieren der Flow-Dateien in Canvas, um diese Dateien in die neueste Version von Data Wrangler zu importieren.

Importieren der Flow-Dateien in Canvas

Nachdem Sie Ihre Flow-Dateien exportiert haben, greifen Sie über Studio auf Canvas zu und importieren Sie die Dateien.

Gehen Sie wie folgt vor, um Flow-Dateien in Canvas zu importieren:

  1. Öffnen Sie die neueste Version von Studio.

  2. Wählen Sie in Studio im linken Navigationsbereich das Dropdown-Menü Daten aus.

  3. Wählen Sie in den Navigationsoptionen Data Wrangler aus.

  4. Wählen Sie auf der Seite Data Wrangler die Option In Canvas ausführen aus. Wenn Sie die Berechtigungen erfolgreich eingerichtet haben, wird eine Canvas-Anwendung für Sie erstellt. Es kann einige Minuten dauern, bis die Canvas-Anwendung fertig ist.

  5. Wenn Canvas bereit ist, wählen Sie In Canvas öffnen aus.

  6. Canvas öffnet die Seite Data Wrangler. Wählen Sie im oberen Bereich die Option Datenflüsse importieren aus.

  7. Wählen Sie für Datenquelle entweder Amazon S3 oder Lokaler Upload aus.

  8. Wählen Sie Ihre Flow-Dateien aus Ihrem Amazon-S3-Bucket aus oder laden Sie die Dateien von Ihrem lokalen Computer hoch.

    Anmerkung

    Für den lokalen Upload können Sie maximal 20 Flow-Dateien gleichzeitig hochladen. Verwenden Sie für größere Importe Amazon S3. Wenn Sie einen Ordner für den Import auswählen, werden alle Flow-Dateien in Unterordnern ebenfalls importiert.

  9. Wählen Sie Daten importieren.

Wenn der Import erfolgreich war, erhalten Sie eine Benachrichtigung, das X Anzahl der Flow-Dateien erfolgreich importiert wurde.

Falls Ihre Flow-Dateien nicht erfolgreich importiert werden können, erhalten Sie in der SageMaker Canvas-Anwendung eine Benachrichtigung. Wählen Sie in der Benachrichtigung die Option Fehler anzeigen aus, um in den einzelnen Fehlermeldungen nach Anleitungen zur Neuformatierung falsch formatierter Flow-Dateien zu suchen.

Nachdem Ihre Flow-Dateien importiert wurden, rufen Sie die Data Wrangler-Seite der SageMaker Canvas-Anwendung auf, um Ihre Datenflüsse anzusehen. Sie können einen Datenfluss öffnen, um zu überprüfen, ob er wie erwartet aussieht.