Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Verwenden von GPU-Partitionen in Amazon SageMaker HyperPod
Clusteradministratoren können wählen, wie sie die GPU-Auslastung in ihrer gesamten Organisation maximieren möchten. Sie können die GPU-Partitionierung mit der NVIDIA Multi-Instance-GPU (MIG) -Technologie aktivieren, um GPU-Ressourcen zur besseren Ressourcennutzung in kleinere, isolierte Instanzen zu partitionieren. Diese Funktion bietet die Möglichkeit, mehrere kleinere Aufgaben gleichzeitig auf einer einzigen GPU auszuführen, anstatt die gesamte Hardware einer einzigen, oft nicht ausgelasteten Aufgabe zu widmen. Dadurch wird die Verschwendung von Rechenleistung und Speicherplatz vermieden.
Die GPU-Partitionierung mit MIG-Technologie unterstützt GPUs und ermöglicht Ihnen die Partitionierung einer einzelnen unterstützten GPU in bis zu sieben separate GPU-Partitionen. Jede GPU-Partition verfügt über dedizierte Speicher-, Cache- und Rechenressourcen, wodurch eine vorhersehbare Isolierung gewährleistet ist.
Vorteile
-
Verbesserte GPU-Auslastung — Maximieren Sie die Recheneffizienz durch Partitionierung auf der GPUs Grundlage der Rechen- und Speicheranforderungen
-
Aufgabenisolierung — Jede GPU-Partition arbeitet unabhängig mit dedizierten Speicher-, Cache- und Rechenressourcen
-
Aufgabenflexibilität — Support eine Mischung von Aufgaben auf einer einzigen physischen GPU, die alle parallel ausgeführt werden
-
Flexibles Einrichtungsmanagement — Support sowohl Do-it-yourself (DIY-) Kubernetes-Konfigurationen mit dem Kubernetes-Befehlszeilenclient als auch eine verwaltete Lösung mit benutzerdefinierten Labels
kubectl, um Ihre Labels für GPU-Partitionen einfach zu konfigurieren und anzuwenden
Unterstützte Instance-Typen
Die GPU-Partitionierung mit MIG-Technologie wird auf den folgenden Instance-Typen unterstützt: HyperPod
A100 GPU-Instanzen — Instanztypen/p4/ https://aws.amazon.com/ec2/
-
ml.p4d.24xlarge — 8 NVIDIA A100 (80 GB pro GPU) GPUs HBM2e
-
ml.p4de.24xlarge - 8 NVIDIA A100 (80 GB pro GPU) GPUs HBM2e
https://aws.amazon.com/ec2/H100-GPU-Instanzen — Instanztypen/p5/
-
ml.p5.48xlarge — 8 NVIDIA H100 (80 GB pro GPU) GPUs HBM3
https://aws.amazon.com/ec2/H200-GPU-Instanzen — Instanztypen/p5/
-
ml.p5e.48xlarge — 8 NVIDIA H200 (141 GB pro GPU) GPUs HBM3e
-
ml.p5en.48xlarge — 8 NVIDIA H200 (141 GB pro GPU) GPUs HBM3e
https://aws.amazon.com/ec2/B200
-
ml.p6b.48xlarge — 8 NVIDIA B200 GPUs
GPU-Partitionen
NVIDIA MIG-Profile definieren, wie partitioniert GPUs werden. Jedes Profil spezifiziert die Rechen- und Speicherzuweisung pro MIG-Instanz. Im Folgenden sind die MIG-Profile aufgeführt, die jedem GPU-Typ zugeordnet sind:
A100-GPU (ml.p4d.24xlarge)
| Profil | Speicher (GB) | Instanzen pro GPU | Insgesamt pro ml.p4d.24xlarge |
|---|---|---|---|
|
5 |
7 |
56 |
|
10 |
3 |
24 |
|
20 |
2 |
16 |
|
20 |
1 |
8 |
|
40 |
1 |
8 |
H100-GPU (ml.p 5,48 x groß)
| Profil | Speicher (GB) | Instanzen pro GPU | Insgesamt pro ml.p5.48xlarge |
|---|---|---|---|
|
10 |
7 |
56 |
|
20 |
4 |
32 |
|
20 |
3 |
24 |
|
40 |
2 |
16 |
|
40 |
1 |
8 |
|
80 |
1 |
8 |
H200-GPU (ml.p5e.48xlarge und ml.p5en.48xlarge)
| Profil | Speicher (GB) | Instanzen pro GPU | Insgesamt pro ml.p5en.48xlarge |
|---|---|---|---|
|
18 |
7 |
56 |
|
35 |
4 |
32 |
|
35 |
3 |
24 |
|
71 |
2 |
16 |
|
71 |
1 |
8 |
|
141 |
1 |
8 |