View a markdown version of this page

Bereitstellen von Grundlagenmodellen und maßgeschneiderten, optimierten Modellen - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Bereitstellen von Grundlagenmodellen und maßgeschneiderten, optimierten Modellen

Ganz gleich, ob Sie vortrainierte Open-Weights-Modelle oder Gated-Modelle von Amazon SageMaker JumpStart oder Ihre eigenen benutzerdefinierten oder fein abgestimmten Modelle einsetzen, die in Amazon S3 oder Amazon FSx gespeichert sind, SageMaker HyperPod bietet die flexible, skalierbare Infrastruktur, die Sie für Produktionsinferenz-Workloads benötigen.

Stellen Sie Open-Weights- und Gated-Foundation-Modelle bereit von JumpStart Implementieren Sie benutzerdefinierte und fein abgestimmte Modelle von Amazon S3 und Amazon FSx Stellen Sie Modelle aus lokalem NVMe-Speicher bereit
Beschreibung

Nutzen Sie für die Implementierung einen umfassenden Katalog vortrainierter Grundlagenmodelle mit automatischen Optimierungs- und Skalierungsrichtlinien, die auf jede Modellfamilie zugeschnitten sind.

Bringen Sie Ihre eigenen, maßgeschneiderten und fein abgestimmten Modelle mit und nutzen Sie die SageMaker HyperPod Unternehmensinfrastruktur für Inferenzen im Produktionsmaßstab. Wählen Sie zwischen kostengünstigem Speicher mit Amazon S3 oder einem leistungsstarken Dateisystem mit Amazon FSx. Laden Sie Modellgewichte aus dem lokalen NVMe-Speicher eines Knotens, um die Netzwerklatenz beim Pod-Start zu vermeiden. Nützlich für automatische Skalierung von Ereignissen, für Workloads, bei denen die Skalierung von Null aus erfolgt, und für latenzempfindliche Failover.
Die wichtigsten Vorteile
  • One-click Bereitstellung über die Amazon SageMaker Studio-Benutzeroberfläche

  • Auto-scaling basierend auf eingehenden Anfragen, automatisch aktiviert

  • Pre-optimized Container und Konfigurationen für jede Modellfamilie

  • EULA-Verwaltung für geschlossene Modelle

  • Support für mehrere Speicher-Backends: Amazon S3, Amazon FSx

  • Flexible Container- und Framework-Unterstützung

  • Benutzerdefinierte Skalierungsrichtlinien, die auf den Merkmalen Ihres Modells basieren

  • Verkürzte Kaltstartzeit durch lokales Ablesen der Gewichte

  • Keine Netzwerkabhängigkeit beim Laden des Modells

  • Optionaler Fallback auf Amazon S3, wenn der NVMe-Cache fehlt

  • Benutzerdefinierte Kubernetes-Volumes und Init-Container

Optionen für die Bereitstellung
  • Amazon SageMaker Studio für die visuelle Bereitstellung

  • kubectl für den Betrieb Kubernetes-native

  • Python-SDK für programmatische Integration

  • HyperPod CLI für Befehlszeilenautomatisierung

  • kubectl für Operationen Kubernetes-native

  • Python-SDK für programmatische Integration

  • HyperPod CLI für Befehlszeilenautomatisierung

  • kubectl für Operationen Kubernetes-native

  • Python-SDK für programmatische Integration

  • HyperPod CLI für Befehlszeilenautomatisierung

In den folgenden Abschnitten werden Sie Schritt für Schritt durch die Bereitstellung von Modellen von Amazon SageMaker JumpStart, Amazon S3 und Amazon FSx sowie von lokalem NVMe-Speicher geführt.