Unterstützte Algorithmen, Frameworks und Instances für Multimodell-Endpunkte, die CPU-gestützte Instances verwenden Unterstützte Algorithmen, Frameworks und Instances für Multimodell-Endpunkte, die GPU-gestützte Instances verwenden

Unterstützte Algorithmen, Frameworks und Instances für Multimodell-Endpunkte

Informationen zu den Algorithmen, Frameworks und Instance-Typen, die Sie mit Multimodell-Endpunkten verwenden können, finden Sie in den folgenden Abschnitten.

Unterstützte Algorithmen, Frameworks und Instances für Multimodell-Endpunkte, die CPU-gestützte Instances verwenden

Die Inference-Container für die folgenden Algorithmen und Frameworks unterstützen Multimodell-Endpunkte:

Um ein anderes Framework oder einen anderen Algorithmus zu verwenden, nutzen Sie das Inferenz-Toolkit von SageMaker AI, um einen Container zu erstellen, der Multimodell-Endpunkte unterstützt. Weitere Informationen finden Sie unter Erstellen Ihres eigenen Containers für Multimodell-Endpunkte von SageMaker AI.

Multimodell-Endpunkte unterstützen CPU-Instances jedes Typs.

Unterstützte Algorithmen, Frameworks und Instances für Multimodell-Endpunkte, die GPU-gestützte Instances verwenden

Das Hosten mehrerer GPU-gestützter Modelle auf Multimodell-Endpunkten wird über den SageMaker AI Triton Inference Server unterstützt. Dies unterstützt alle wichtigen Inference Frameworks wie NVIDIA® TensorRT™, PyTorch, MXNet, Python, ONNX, XGBoost, Scikit-Learn, RandomForest, OpenVINO, benutzerdefiniertes C++ u.v.m.

Um ein anderes Framework oder einen anderen Algorithmus zu verwenden, können Sie das Triton-Backend für Python oder C++ verwenden, um Ihre Modelllogik zu schreiben und jedes benutzerdefinierte Modell bereitzustellen. Sobald Sie den Server bereit haben, können Sie damit beginnen, Hunderte von Deep-Learning-Modellen hinter einem Endpunkt bereitzustellen.

Multimodell-Endpunkte unterstützen GPU-Instances der folgenden Typen:

Instance-Familie	Instance-Typ	vCPUs	GiB Arbeitsspeicher pro vCPU	GPUs	GPU-Arbeitsspeicher
p2	ml.p2.xlarge	4	15,25	1	12
p3	ml.p3.2xlarge	8	7,62	1	16
g5	ml.g5.xlarge	4	4	1	24
g5	ml.g5.2xlarge	8	4	1	24
g5	ml.g5.4xlarge	16	4	1	24
g5	ml.g5.8xlarge	32	4	1	24
g5	ml.g5.16xlarge	64	4	1	24
g4dn	ml.g4dn.xlarge	4	4	1	16
g4dn	ml.g4dn.2xlarge	8	4	1	16
g4dn	ml.g4dn.4xlarge	16	4	1	16
g4dn	ml.g4dn.8xlarge	32	4	1	16
g4dn	ml.g4dn.16xlarge	64	4	1	16

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Multimodell-Endpunkte

Instance-Empfehlungen für Bereitstellungen von Multimodell-Endpunkten