Real-time Folgerung

Real-time Inferenz ist ideal für Inferenz-Workloads, bei denen interaktive Echtzeitanforderungen mit geringer Latenz erfüllt werden müssen. Sie können Ihr Modell für SageMaker KI-Hosting-Dienste bereitstellen und erhalten einen Endpunkt, der für Inferenzen verwendet werden kann. Diese Endgeräte werden vollständig verwaltet und unterstützen Autoscaling (siehe Automatische Skalierung von Amazon SageMaker AI-Modellen). Sie können einzelne Instances und Container auf Ihren Endpunkten mit erweiterten Metriken überwachen (sieheVerbesserte Amazon SageMaker AI-Metriken für Inferenzendpunkte).

Themen

Modelle für Echtzeit-Inferenzen bereitstellen
Aufrufen von Modellen für Echtzeit-Inferenz
Endpunkte mit APIs aufrufen OpenAI-compatible
Endpunkte
Hosting-Optionen
Automatische Skalierung von Amazon SageMaker AI-Modellen
Instance-Speicher-Volumes
Validieren von Modellen in der Produktion
Online-Erklärbarkeit mit Clarify SageMaker
Bereitstellung auf mehreren Instanztypen mit Instanzpools
Fine-tune Modelle mit Adapter-Inferenzkomponenten

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Beheben Sie Inference Recommender-Fehler

Bereitstellen von Modellen