Unterstützte Algorithmen, Frameworks und Instances für Multimodell-Endpunkte - Amazon SageMaker AI

Unterstützte Algorithmen, Frameworks und Instances für Multimodell-Endpunkte

Informationen zu den Algorithmen, Frameworks und Instance-Typen, die Sie mit Multimodell-Endpunkten verwenden können, finden Sie in den folgenden Abschnitten.

Unterstützte Algorithmen, Frameworks und Instances für Multimodell-Endpunkte, die CPU-gestützte Instances verwenden

Die Inference-Container für die folgenden Algorithmen und Frameworks unterstützen Multimodell-Endpunkte:

Um ein anderes Framework oder einen anderen Algorithmus zu verwenden, nutzen Sie das Inferenz-Toolkit von SageMaker AI, um einen Container zu erstellen, der Multimodell-Endpunkte unterstützt. Weitere Informationen finden Sie unter Erstellen Ihres eigenen Containers für Multimodell-Endpunkte von SageMaker AI.

Multimodell-Endpunkte unterstützen CPU-Instances jedes Typs.

Unterstützte Algorithmen, Frameworks und Instances für Multimodell-Endpunkte, die GPU-gestützte Instances verwenden

Das Hosten mehrerer GPU-gestützter Modelle auf Multimodell-Endpunkten wird über den SageMaker AI Triton Inference Server unterstützt. Dies unterstützt alle wichtigen Inference Frameworks wie NVIDIA® TensorRT™, PyTorch, MXNet, Python, ONNX, XGBoost, Scikit-Learn, RandomForest, OpenVINO, benutzerdefiniertes C++ u.v.m.

Um ein anderes Framework oder einen anderen Algorithmus zu verwenden, können Sie das Triton-Backend für Python oder C++ verwenden, um Ihre Modelllogik zu schreiben und jedes benutzerdefinierte Modell bereitzustellen. Sobald Sie den Server bereit haben, können Sie damit beginnen, Hunderte von Deep-Learning-Modellen hinter einem Endpunkt bereitzustellen.

Multimodell-Endpunkte unterstützen GPU-Instances der folgenden Typen:

Instance-Familie Instance-Typ vCPUs GiB Arbeitsspeicher pro vCPU GPUs GPU-Arbeitsspeicher

p2

ml.p2.xlarge

4

15,25

1

12

p3

ml.p3.2xlarge

8

7,62

1

16

g5

ml.g5.xlarge

4

4

1

24

g5

ml.g5.2xlarge

8

4

1

24

g5

ml.g5.4xlarge

16

4

1

24

g5

ml.g5.8xlarge

32

4

1

24

g5

ml.g5.16xlarge

64

4

1

24

g4dn

ml.g4dn.xlarge

4

4

1

16

g4dn

ml.g4dn.2xlarge

8

4

1

16

g4dn

ml.g4dn.4xlarge

16

4

1

16

g4dn

ml.g4dn.8xlarge

32

4

1

16

g4dn

ml.g4dn.16xlarge

64

4

1

16