Bereitstellen von Modellen auf Amazon SageMaker HyperPod - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Bereitstellen von Modellen auf Amazon SageMaker HyperPod

Amazon geht SageMaker HyperPod jetzt über Schulungen hinaus und bietet eine umfassende Inferenzplattform, die die Flexibilität von Kubernetes mit der operativen Exzellenz von AWS Managed Services kombiniert. Stellen Sie Ihre Modelle für maschinelles Lernen bereit, skalieren und optimieren Sie sie mit Zuverlässigkeit auf Unternehmensniveau und nutzen Sie während des gesamten Modelllebenszyklus dieselbe HyperPod Rechenleistung.

Amazon SageMaker HyperPod bietet flexible Bereitstellungsschnittstellen, mit denen Sie Modelle über mehrere Methoden bereitstellen können, darunter kubectl, Python SDK, Amazon SageMaker Studio UI oder HyperPod CLI. Der Service bietet erweiterte Autoscaling-Funktionen mit dynamischer Ressourcenzuweisung, die sich automatisch an den Bedarf anpasst. Darüber hinaus umfasst es umfassende Beobachtungs- und Überwachungsfunktionen, die wichtige Kennzahlen wie time-to-first-token Latenz und GPU-Auslastung verfolgen, um Sie bei der Leistungsoptimierung zu unterstützen.

Anmerkung

Bei der Bereitstellung auf GPU-fähigen Instances können Sie die GPU-Partitionierung mit der Multi-Instance-GPU (MIG) -Technologie verwenden, um mehrere Inferenz-Workloads auf einer einzigen GPU auszuführen. Dies ermöglicht eine bessere GPU-Auslastung und Kostenoptimierung. Weitere Informationen zur Konfiguration der GPU-Partitionierung finden Sie unterVerwenden von GPU-Partitionen in Amazon SageMaker HyperPod.

Einheitliche Infrastruktur für Training und Inferenz

Maximieren Sie Ihre GPU-Auslastung, indem Sie die Rechenressourcen nahtlos zwischen Trainings- und Inferenz-Workloads verlagern. Dies reduziert die Gesamtbetriebskosten und gewährleistet gleichzeitig die Betriebskontinuität.

Bereitstellungsoptionen für Unternehmen

Stellen Sie Modelle aus mehreren Quellen bereit, darunter Open-Weights- und Gated-Modelle von Amazon SageMaker JumpStart und benutzerdefinierte Modelle von Amazon S3 und Amazon, FSx mit Unterstützung für Inferenzarchitekturen mit einem oder mehreren Knoten.

Verwaltetes Tiered Key-Value (KV) -Caching und intelligentes Routing

Beim KV-Caching werden die vorberechneten Schlüssel-Wert-Vektoren nach der Verarbeitung früherer Token gespeichert. Wenn das nächste Token verarbeitet wird, müssen die Vektoren nicht neu berechnet werden. Mithilfe einer zweistufigen Caching-Architektur können Sie einen L1-Cache konfigurieren, der CPU-Speicher für die lokale Wiederverwendung mit geringer Latenz verwendet, und einen L2-Cache, der Redis nutzt, um skalierbare Cache-Sharing auf Knotenebene zu ermöglichen.

Intelligentes Routing analysiert eingehende Anfragen und leitet sie an die Inferenzinstanz weiter, bei der die relevanten zwischengespeicherten Schlüssel-Wert-Paare am wahrscheinlichsten sind. Das System untersucht die Anfrage und leitet sie dann auf der Grundlage einer der folgenden Routing-Strategien weiter:

  1. prefixaware— Nachfolgende Anfragen mit demselben Prompt-Präfix werden an dieselbe Instanz weitergeleitet

  2. kvaware— Eingehende Anfragen werden an die Instanz mit der höchsten KV-Cache-Trefferquote weitergeleitet.

  3. session— Anfragen aus derselben Benutzersitzung werden an dieselbe Instanz weitergeleitet.

  4. roundrobin— Gleichmäßige Verteilung von Anfragen ohne Berücksichtigung des Status des KV-Caches.

Weitere Informationen zur Aktivierung dieser Funktion finden Sie unterKonfigurieren Sie KV-Caching und intelligentes Routing für eine verbesserte Leistung.

Integrierte L2-Cache-Tiered-Storage-Unterstützung für KV-Caching

Aufbauend auf der bestehenden KV-Cache-Infrastruktur wird Tiered Storage HyperPod nun als zusätzliche L2-Backend-Option neben Redis integriert. Mit dem integrierten SageMaker verwalteten Tiered Storage bietet dies eine verbesserte Leistung. Diese Erweiterung bietet Kunden eine skalierbarere und effizientere Option für das Cache-Offloading, was besonders für LLM-Inferenz-Workloads mit hohem Durchsatz von Vorteil ist. Die Integration gewährleistet die Kompatibilität mit bestehenden Servern und Routing-Funktionen des VllM-Modells und bietet gleichzeitig eine bessere Leistung.

Anmerkung

Wir erfassen bestimmte routinemäßige Betriebskennzahlen, um die grundlegende Verfügbarkeit unserer Dienste sicherzustellen. Die Erstellung dieser Metriken erfolgt vollautomatisch und erfordert keine menschliche Überprüfung des zugrundeliegenden Arbeitsaufwands für Modellinferenzen. Diese Metriken beziehen sich auf Bereitstellungsvorgänge, Ressourcenmanagement und Endpunktregistrierung.