Unterstützte Algorithmen, Frameworks und Instances für Multimodell-Endpunkte
Informationen zu den Algorithmen, Frameworks und Instance-Typen, die Sie mit Multimodell-Endpunkten verwenden können, finden Sie in den folgenden Abschnitten.
Unterstützte Algorithmen, Frameworks und Instances für Multimodell-Endpunkte, die CPU-gestützte Instances verwenden
Die Inference-Container für die folgenden Algorithmen und Frameworks unterstützen Multimodell-Endpunkte:
Um ein anderes Framework oder einen anderen Algorithmus zu verwenden, nutzen Sie das Inferenz-Toolkit von SageMaker AI, um einen Container zu erstellen, der Multimodell-Endpunkte unterstützt. Weitere Informationen finden Sie unter Erstellen Ihres eigenen Containers für Multimodell-Endpunkte von SageMaker AI.
Multimodell-Endpunkte unterstützen CPU-Instances jedes Typs.
Unterstützte Algorithmen, Frameworks und Instances für Multimodell-Endpunkte, die GPU-gestützte Instances verwenden
Das Hosten mehrerer GPU-gestützter Modelle auf Multimodell-Endpunkten wird über den SageMaker AI Triton Inference Server unterstützt. Dies unterstützt alle wichtigen Inference Frameworks wie NVIDIA® TensorRT™, PyTorch, MXNet, Python, ONNX, XGBoost, Scikit-Learn, RandomForest, OpenVINO, benutzerdefiniertes C++ u.v.m.
Um ein anderes Framework oder einen anderen Algorithmus zu verwenden, können Sie das Triton-Backend für Python oder C++ verwenden, um Ihre Modelllogik zu schreiben und jedes benutzerdefinierte Modell bereitzustellen. Sobald Sie den Server bereit haben, können Sie damit beginnen, Hunderte von Deep-Learning-Modellen hinter einem Endpunkt bereitzustellen.
Multimodell-Endpunkte unterstützen GPU-Instances der folgenden Typen:
| Instance-Familie | Instance-Typ | vCPUs | GiB Arbeitsspeicher pro vCPU | GPUs | GPU-Arbeitsspeicher |
|---|---|---|---|---|---|
p2 |
ml.p2.xlarge |
4 |
15,25 |
1 |
12 |
p3 |
ml.p3.2xlarge |
8 |
7,62 |
1 |
16 |
g5 |
ml.g5.xlarge |
4 |
4 |
1 |
24 |
g5 |
ml.g5.2xlarge |
8 |
4 |
1 |
24 |
g5 |
ml.g5.4xlarge |
16 |
4 |
1 |
24 |
g5 |
ml.g5.8xlarge |
32 |
4 |
1 |
24 |
g5 |
ml.g5.16xlarge |
64 |
4 |
1 |
24 |
g4dn |
ml.g4dn.xlarge |
4 |
4 |
1 |
16 |
g4dn |
ml.g4dn.2xlarge |
8 |
4 |
1 |
16 |
g4dn |
ml.g4dn.4xlarge |
16 |
4 |
1 |
16 |
g4dn |
ml.g4dn.8xlarge |
32 |
4 |
1 |
16 |
g4dn |
ml.g4dn.16xlarge |
64 |
4 |
1 |
16 |