Vorteile Unterstützte Instance-Typen GPU-Partitionen

Verwenden von GPU-Partitionen in Amazon SageMaker HyperPod

Clusteradministratoren können wählen, wie sie die GPU-Auslastung in ihrer gesamten Organisation maximieren möchten. Sie können die GPU-Partitionierung mit der NVIDIA Multi-Instance-GPU (MIG) -Technologie aktivieren, um GPU-Ressourcen zur besseren Ressourcennutzung in kleinere, isolierte Instanzen zu partitionieren. Diese Funktion bietet die Möglichkeit, mehrere kleinere Aufgaben gleichzeitig auf einer einzigen GPU auszuführen, anstatt die gesamte Hardware einer einzigen, oft nicht ausgelasteten Aufgabe zu widmen. Dadurch wird die Verschwendung von Rechenleistung und Speicherplatz vermieden.

Die GPU-Partitionierung mit MIG-Technologie unterstützt GPUs und ermöglicht Ihnen die Partitionierung einer einzelnen unterstützten GPU in bis zu sieben separate GPU-Partitionen. Jede GPU-Partition verfügt über dedizierte Speicher-, Cache- und Rechenressourcen, wodurch eine vorhersehbare Isolierung gewährleistet ist.

Vorteile

Verbesserte GPU-Auslastung — Maximieren Sie die Recheneffizienz durch Partitionierung auf der GPUs Grundlage der Rechen- und Speicheranforderungen
Aufgabenisolierung — Jede GPU-Partition arbeitet unabhängig mit dedizierten Speicher-, Cache- und Rechenressourcen
Aufgabenflexibilität — Support eine Mischung von Aufgaben auf einer einzigen physischen GPU, die alle parallel ausgeführt werden
Flexibles Einrichtungsmanagement — Support sowohl Do-it-yourself (DIY-) Kubernetes-Konfigurationen mit dem Kubernetes-Befehlszeilenclient als auch eine verwaltete Lösung mit benutzerdefinierten Labelskubectl, um Ihre Labels für GPU-Partitionen einfach zu konfigurieren und anzuwenden

Unterstützte Instance-Typen

Die GPU-Partitionierung mit MIG-Technologie wird auf den folgenden Instance-Typen unterstützt: HyperPod

A100 GPU-Instanzen — Instanztypen/p4/ https://aws.amazon.com/ec2/

ml.p4d.24xlarge — 8 NVIDIA A100 (80 GB pro GPU) GPUs HBM2e
ml.p4de.24xlarge - 8 NVIDIA A100 (80 GB pro GPU) GPUs HBM2e

https://aws.amazon.com/ec2/H100-GPU-Instanzen — Instanztypen/p5/

ml.p5.48xlarge — 8 NVIDIA H100 (80 GB pro GPU) GPUs HBM3

https://aws.amazon.com/ec2/H200-GPU-Instanzen — Instanztypen/p5/

ml.p5e.48xlarge — 8 NVIDIA H200 (141 GB pro GPU) GPUs HBM3e
ml.p5en.48xlarge — 8 NVIDIA H200 (141 GB pro GPU) GPUs HBM3e

https://aws.amazon.com/ec2/B200 GPU-Instanzen — Instanztypen/p6/

ml.p6b.48xlarge — 8 NVIDIA B200 GPUs

GPU-Partitionen

NVIDIA MIG-Profile definieren, wie partitioniert GPUs werden. Jedes Profil spezifiziert die Rechen- und Speicherzuweisung pro MIG-Instanz. Im Folgenden sind die MIG-Profile aufgeführt, die jedem GPU-Typ zugeordnet sind:

A100-GPU (ml.p4d.24xlarge)

Profil	Speicher (GB)	Instanzen pro GPU	Insgesamt pro ml.p4d.24xlarge
`1g.5gb`	5	7	56
`2g.10gb`	10	3	24
`3g.20gb`	20	2	16
`4g.20gb`	20	1	8
`7g.40gb`	40	1	8

H100-GPU (ml.p 5,48 x groß)

Profil	Speicher (GB)	Instanzen pro GPU	Insgesamt pro ml.p5.48xlarge
`1g.10gb`	10	7	56
`1g.20gb`	20	4	32
`2g.20gb`	20	3	24
`3g.40gb`	40	2	16
`4g.40gb`	40	1	8
`7g.80gb`	80	1	8

H200-GPU (ml.p5e.48xlarge und ml.p5en.48xlarge)

Profil	Speicher (GB)	Instanzen pro GPU	Insgesamt pro ml.p5en.48xlarge
`1g.18gb`	18	7	56
`1g.35gb`	35	4	32
`2g.35gb`	35	3	24
`3g.71gb`	71	2	16
`4g.71gb`	71	1	8
`7g.141gb`	141	1	8

Themen

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Versionshinweise

GPU-Partitionen einrichten