Verwaltung von Speicherpfaden für verschiedene Arten von lokalem Instance-Speicher - Amazon SageMaker AI

Verwaltung von Speicherpfaden für verschiedene Arten von lokalem Instance-Speicher

Beachten Sie Folgendes, wenn Sie Speicherpfade für Trainingsjobs in SageMaker AI einrichten.

  • Wenn Sie Trainingsartefakte für verteiltes Training im /opt/ml/output/data Verzeichnis speichern möchten, müssen Sie Unterverzeichnisse ordnungsgemäß anhängen oder in Ihrer Modelldefinition oder Ihrem Trainingsskript eindeutige Dateinamen für die Artefakte verwenden. Wenn die Unterverzeichnisse und Dateinamen nicht richtig konfiguriert sind, schreiben alle verteilten Trainingsmitarbeiter möglicherweise Ausgaben in denselben Dateinamen im gleichen Ausgabepfad in Amazon S3.

  • Wenn Sie einen benutzerdefinierten Trainingscontainer verwenden, stellen Sie sicher, dass Sie das SageMaker-Trainings-Toolkit installieren, mit dem Sie die Umgebung für SageMaker-Trainingsjobs einrichten können. Andernfalls müssen Sie die Umgebungsvariablen explizit in Ihrem Dockerfile angeben. Weitere Informationen finden Sie unter Erstellen eines Containers mit Ihren eigenen Algorithmen und Modellen.

  • Wenn Sie eine ML-Instance mit NVMe SSD-Volumes verwenden, stellt SageMaker AI keinen Amazon EBS-GP2-Speicher bereit. Der verfügbare Speicher ist auf die Speicherkapazität der NVMe-Instance festgelegt. SageMaker AI konfiguriert Speicherpfade für Trainingsdatensätze, Checkpoints, Modellartefakte und Ausgaben, um die gesamte Kapazität des Instance-Speichers zu nutzen. Zu ML-Instance-Familien mit Instance-Speicher vom Typ NVME gehören beispielsweise, ml.p4d, ml.g4dn und ml.g5. Wenn Sie eine ML-Instance mit der reinen EBS-Speicheroption und ohne Instance-Speicher verwenden, müssen Sie die Größe des EBS-Volumes über den volume_size Parameter in der SageMaker-AI-Schätzerklasse definieren (oder VolumeSizeInGB wenn Sie die API ResourceConfig verwenden). Zu den ML-Instance-Familien, die EBS-Volumes verwenden, gehören beispielsweise ml.c5 und ml.p2. Informationen zu Instance-Typen und ihren Instance-Speichertypen und Volumes finden Sie unter Amazon-EC2-Instance-Typen.

  • Die Standardpfade für SageMaker-Trainingsjobs werden auf Amazon EBS-Volumes oder NVMe SSD-Volumes der ML-Instance bereitgestellt. Wenn Sie Ihr Trainingsskript an SageMaker AI anpassen, stellen Sie sicher, dass Sie die Standardpfade verwenden, die im vorherigen Thema über SageMaker-AI-Umgebungsvariablen und Standardpfade für Trainingsspeicherorte aufgeführt sind. Wir empfehlen, dass Sie das /tmp Verzeichnis als Speicherplatz für die temporäre Speicherung großer Objekte während des Trainings verwenden. Das bedeutet, dass Sie keine Verzeichnisse verwenden dürfen, die auf einem kleinen, für das System zugewiesenen Speicherplatz gespeichert sind, wie z. B. /user und /home, um Fehler bei Platzmangel zu vermeiden.

Weitere Informationen finden Sie im AWS Machine-Learning-Blog Wählen Sie die beste Datenquelle für Ihr Amazon SageMaker-Training, in dem Fallstudien und Leistungsbenchmarks von Datenquellen und Eingabemodi näher erläutert werden.