Verwenden von GPU-Partitionen in Amazon SageMaker HyperPod - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwenden von GPU-Partitionen in Amazon SageMaker HyperPod

Clusteradministratoren können wählen, wie sie die GPU-Auslastung in ihrer gesamten Organisation maximieren möchten. Sie können die GPU-Partitionierung mit der NVIDIA Multi-Instance-GPU (MIG) -Technologie aktivieren, um GPU-Ressourcen zur besseren Ressourcennutzung in kleinere, isolierte Instanzen zu partitionieren. Diese Funktion bietet die Möglichkeit, mehrere kleinere Aufgaben gleichzeitig auf einer einzigen GPU auszuführen, anstatt die gesamte Hardware einer einzigen, oft nicht ausgelasteten Aufgabe zu widmen. Dadurch wird die Verschwendung von Rechenleistung und Speicherplatz vermieden.

Die GPU-Partitionierung mit MIG-Technologie unterstützt GPUs und ermöglicht Ihnen die Partitionierung einer einzelnen unterstützten GPU in bis zu sieben separate GPU-Partitionen. Jede GPU-Partition verfügt über dedizierte Speicher-, Cache- und Rechenressourcen, wodurch eine vorhersehbare Isolierung gewährleistet ist.

Vorteile

  • Verbesserte GPU-Auslastung — Maximieren Sie die Recheneffizienz durch Partitionierung auf der GPUs Grundlage der Rechen- und Speicheranforderungen

  • Aufgabenisolierung — Jede GPU-Partition arbeitet unabhängig mit dedizierten Speicher-, Cache- und Rechenressourcen

  • Aufgabenflexibilität — Support eine Mischung von Aufgaben auf einer einzigen physischen GPU, die alle parallel ausgeführt werden

  • Flexibles Einrichtungsmanagement — Support sowohl Do-it-yourself (DIY-) Kubernetes-Konfigurationen mit dem Kubernetes-Befehlszeilenclient als auch eine verwaltete Lösung mit benutzerdefinierten Labelskubectl, um Ihre Labels für GPU-Partitionen einfach zu konfigurieren und anzuwenden

Unterstützte Instance-Typen

Die GPU-Partitionierung mit MIG-Technologie wird auf den folgenden Instance-Typen unterstützt: HyperPod

A100 GPU-Instanzen — Instanztypen/p4/ https://aws.amazon.com/ec2/

  • ml.p4d.24xlarge — 8 NVIDIA A100 (80 GB pro GPU) GPUs HBM2e

  • ml.p4de.24xlarge - 8 NVIDIA A100 (80 GB pro GPU) GPUs HBM2e

https://aws.amazon.com/ec2/H100-GPU-Instanzen — Instanztypen/p5/

  • ml.p5.48xlarge — 8 NVIDIA H100 (80 GB pro GPU) GPUs HBM3

https://aws.amazon.com/ec2/H200-GPU-Instanzen — Instanztypen/p5/

  • ml.p5e.48xlarge — 8 NVIDIA H200 (141 GB pro GPU) GPUs HBM3e

  • ml.p5en.48xlarge — 8 NVIDIA H200 (141 GB pro GPU) GPUs HBM3e

https://aws.amazon.com/ec2/B200 GPU-Instanzen — Instanztypen/p6/

  • ml.p6b.48xlarge — 8 NVIDIA B200 GPUs

GPU-Partitionen

NVIDIA MIG-Profile definieren, wie partitioniert GPUs werden. Jedes Profil spezifiziert die Rechen- und Speicherzuweisung pro MIG-Instanz. Im Folgenden sind die MIG-Profile aufgeführt, die jedem GPU-Typ zugeordnet sind:

A100-GPU (ml.p4d.24xlarge)

Profil Speicher (GB) Instanzen pro GPU Insgesamt pro ml.p4d.24xlarge

1g.5gb

5

7

56

2g.10gb

10

3

24

3g.20gb

20

2

16

4g.20gb

20

1

8

7g.40gb

40

1

8

H100-GPU (ml.p 5,48 x groß)

Profil Speicher (GB) Instanzen pro GPU Insgesamt pro ml.p5.48xlarge

1g.10gb

10

7

56

1g.20gb

20

4

32

2g.20gb

20

3

24

3g.40gb

40

2

16

4g.40gb

40

1

8

7g.80gb

80

1

8

H200-GPU (ml.p5e.48xlarge und ml.p5en.48xlarge)

Profil Speicher (GB) Instanzen pro GPU Insgesamt pro ml.p5en.48xlarge

1g.18gb

18

7

56

1g.35gb

35

4

32

2g.35gb

35

3

24

3g.71gb

71

2

16

4g.71gb

71

1

8

7g.141gb

141

1

8