Verwaltung von Speicherpfaden für verschiedene Arten von lokalem Instance-Speicher
Beachten Sie Folgendes, wenn Sie Speicherpfade für Trainingsjobs in SageMaker AI einrichten.
-
Wenn Sie Trainingsartefakte für verteiltes Training im
/opt/ml/output/dataVerzeichnis speichern möchten, müssen Sie Unterverzeichnisse ordnungsgemäß anhängen oder in Ihrer Modelldefinition oder Ihrem Trainingsskript eindeutige Dateinamen für die Artefakte verwenden. Wenn die Unterverzeichnisse und Dateinamen nicht richtig konfiguriert sind, schreiben alle verteilten Trainingsmitarbeiter möglicherweise Ausgaben in denselben Dateinamen im gleichen Ausgabepfad in Amazon S3. -
Wenn Sie einen benutzerdefinierten Trainingscontainer verwenden, stellen Sie sicher, dass Sie das SageMaker-Trainings-Toolkit
installieren, mit dem Sie die Umgebung für SageMaker-Trainingsjobs einrichten können. Andernfalls müssen Sie die Umgebungsvariablen explizit in Ihrem Dockerfile angeben. Weitere Informationen finden Sie unter Erstellen eines Containers mit Ihren eigenen Algorithmen und Modellen. -
Wenn Sie eine ML-Instance mit NVMe SSD-Volumes verwenden, stellt SageMaker AI keinen Amazon EBS-GP2-Speicher bereit. Der verfügbare Speicher ist auf die Speicherkapazität der NVMe-Instance festgelegt. SageMaker AI konfiguriert Speicherpfade für Trainingsdatensätze, Checkpoints, Modellartefakte und Ausgaben, um die gesamte Kapazität des Instance-Speichers zu nutzen. Zu ML-Instance-Familien mit Instance-Speicher vom Typ NVME gehören beispielsweise,
ml.p4d,ml.g4dnundml.g5. Wenn Sie eine ML-Instance mit der reinen EBS-Speicheroption und ohne Instance-Speicher verwenden, müssen Sie die Größe des EBS-Volumes über denvolume_sizeParameter in der SageMaker-AI-Schätzerklasse definieren (oderVolumeSizeInGBwenn Sie die APIResourceConfigverwenden). Zu den ML-Instance-Familien, die EBS-Volumes verwenden, gehören beispielsweiseml.c5undml.p2. Informationen zu Instance-Typen und ihren Instance-Speichertypen und Volumes finden Sie unter Amazon-EC2-Instance-Typen. -
Die Standardpfade für SageMaker-Trainingsjobs werden auf Amazon EBS-Volumes oder NVMe SSD-Volumes der ML-Instance bereitgestellt. Wenn Sie Ihr Trainingsskript an SageMaker AI anpassen, stellen Sie sicher, dass Sie die Standardpfade verwenden, die im vorherigen Thema über SageMaker-AI-Umgebungsvariablen und Standardpfade für Trainingsspeicherorte aufgeführt sind. Wir empfehlen, dass Sie das
/tmpVerzeichnis als Speicherplatz für die temporäre Speicherung großer Objekte während des Trainings verwenden. Das bedeutet, dass Sie keine Verzeichnisse verwenden dürfen, die auf einem kleinen, für das System zugewiesenen Speicherplatz gespeichert sind, wie z. B./userund/home, um Fehler bei Platzmangel zu vermeiden.
Weitere Informationen finden Sie im AWS Machine-Learning-Blog Wählen Sie die beste Datenquelle für Ihr Amazon SageMaker-Training