Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Verwenden von GPU-Partitionen in Amazon SageMaker HyperPod
Clusteradministratoren können wählen, wie sie die GPU-Auslastung in ihrer gesamten Organisation maximieren möchten. Sie können die GPU-Partitionierung mit der NVIDIA Multi-Instance GPU (MIG) -Technologie aktivieren, um GPU-Ressourcen zur besseren Ressourcennutzung in kleinere, isolierte Instanzen zu partitionieren. Diese Funktion bietet die Möglichkeit, mehrere kleinere Aufgaben gleichzeitig auf einer einzigen GPU auszuführen, anstatt die gesamte Hardware einer einzigen, oft nicht ausgelasteten Aufgabe zu widmen. Dadurch wird die Verschwendung von Rechenleistung und Speicherplatz vermieden.
Die GPU-Partitionierung mit MIG-Technologie unterstützt GPUs und ermöglicht es Ihnen, eine einzelne unterstützte GPU in bis zu sieben separate GPU-Partitionen zu partitionieren. Jede GPU-Partition verfügt über dedizierte Speicher-, Cache- und Rechenressourcen, wodurch eine vorhersehbare Isolierung gewährleistet ist.
Vorteile
-
Verbesserte GPU-Auslastung — Maximieren Sie die Recheneffizienz, indem Sie GPUs auf Grundlage der Rechen- und Speicheranforderungen partitionieren
-
Aufgabenisolierung — Jede GPU-Partition arbeitet unabhängig mit dedizierten Speicher-, Cache- und Rechenressourcen
-
Aufgabenflexibilität — Support eine Mischung von Aufgaben auf einer einzigen physischen GPU, die alle parallel ausgeführt werden
-
Flexibles Einrichtungsmanagement — Support sowohl Do-it-yourself (DIY-) Kubernetes-Konfigurationen mit dem Kubernetes-Befehlszeilenclient als auch eine verwaltete Lösung mit benutzerdefinierten Labels
kubectl, um Ihre Labels für GPU-Partitionen einfach zu konfigurieren und anzuwenden
Wichtig
Die GPU-Partitionierung mit MIG wird bei flexiblen Instanzgruppen (Instanzgruppen, die verwenden) nicht unterstützt. InstanceRequirements Um MIG zu verwenden, erstellen Sie eine Instanzgruppe mit einer einzigenInstanceType.
Unterstützte Instance-Typen
Die GPU-Partitionierung mit MIG-Technologie wird auf den folgenden HyperPod Instance-Typen unterstützt:
A100 GPU-Instanzen - https://aws.amazon.com/ec2/instance-types/p4/
-
ml.p4d.24xlarge — 8 NVIDIA A100-GPUs (80 GB HBM2e pro GPU)
-
ml.p4de.24xlarge — 8 NVIDIA A100-GPUs (80 GB HBM2e pro GPU)
H100-GPU-Instanzen - https://aws.amazon.com/ec2/instance-types/p5/
-
ml.p5.48xlarge — 8 NVIDIA H100-GPUs (80 GB HBM3 pro GPU)
H200-GPU-Instanzen - https://aws.amazon.com/ec2/instance-types/p5/
-
ml.p5e.48xlarge — 8 NVIDIA H200-GPUs (141 GB HBM3e pro GPU)
-
ml.p5en.48xlarge — 8 NVIDIA H200-GPUs (141 GB HBM3e pro GPU)
B200-GPU-Instanzen - https://aws.amazon.com/ec2/instance-types/p6/
-
ml.p6b.48xlarge — 8 NVIDIA B200-GPUs
GPU-Partitionen
NVIDIA MIG-Profile definieren, wie GPUs partitioniert werden. Jedes Profil spezifiziert die Rechen- und Speicherzuweisung pro MIG-Instanz. Im Folgenden sind die MIG-Profile aufgeführt, die jedem GPU-Typ zugeordnet sind:
A100-GPU (ml.p4d.24xlarge)
| Profil | Speicher (GB) | Instanzen pro GPU | Insgesamt pro ml.p4d.24xlarge |
|---|---|---|---|
|
5 |
7 |
56 |
|
10 |
3 |
24 |
|
20 |
2 |
16 |
|
20 |
1 |
8 |
|
40 |
1 |
8 |
H100-GPU (ml.p 5,48 x groß)
| Profil | Speicher (GB) | Instanzen pro GPU | Insgesamt pro ml.p5.48xlarge |
|---|---|---|---|
|
10 |
7 |
56 |
|
20 |
4 |
32 |
|
20 |
3 |
24 |
|
40 |
2 |
16 |
|
40 |
1 |
8 |
|
80 |
1 |
8 |
H200-GPU (ml.p5e.48xlarge und ml.p5en.48xlarge)
| Profil | Speicher (GB) | Instanzen pro GPU | Insgesamt pro ml.p5en.48xlarge |
|---|---|---|---|
|
18 |
7 |
56 |
|
35 |
4 |
32 |
|
35 |
3 |
24 |
|
71 |
2 |
16 |
|
71 |
1 |
8 |
|
141 |
1 |
8 |