Echtzeit-Inferenz
Echtzeit-Inferenz ist ideal für Inferenz-Workloads, die in Echtzeit, interaktiv und mit geringer Latenz ablaufen müssen. Sie können Ihr Modell auf Hosting-Diensten von SageMaker AI bereitstellen und erhalten einen Endpunkt, der für Inferenzen verwendet werden kann. Diese Endgeräte werden vollständig verwaltet und unterstützen Autoscaling (siehe Automatische Skalierung der Modelle auf Amazon SageMaker AI).