View a markdown version of this page

HyperPod Registerkarten in Studio - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

HyperPod Registerkarten in Studio

In Amazon SageMaker Studio können Sie zu einem Ihrer HyperPodCluster in Clustern (unter Compute) navigieren und Ihre Clusterliste einsehen. Die angezeigten Cluster enthalten Informationen wie Aufgaben, Hardwaremetriken, Einstellungen und Metadatendetails. Diese Transparenz kann Ihrem Team helfen, den richtigen Kandidaten für Ihre Workloads vor der Schulung oder Feinabstimmung zu finden. In den folgenden Abschnitten finden Sie Informationen zu den einzelnen Informationstypen.

Aufgaben

Amazon SageMaker HyperPod bietet einen Überblick über Ihre Cluster-Aufgaben. Aufgaben sind Operationen oder Jobs, die an den Cluster gesendet werden. Dabei kann es sich um Operationen des maschinellen Lernens wie Training, Durchführung von Experimenten oder Inferenz handeln. Der folgende Abschnitt enthält Informationen zu Ihren HyperPod Cluster-Aufgaben.

In Amazon SageMaker Studio können Sie zu einem Ihrer HyperPodCluster in Clustern (unter Compute) navigieren und die Aufgabeninformationen in Ihrem Cluster anzeigen. Wenn Sie Probleme beim Anzeigen von Aufgaben haben, finden Sie weitere Informationen unter Fehlerbehebung.

Die Aufgabentabelle umfasst:

For Slurm clusters

Für Slurm-Cluster werden die Aufgaben, die sich derzeit in der Slurm-Job-Scheduler-Warteschlange befinden, in der Tabelle angezeigt. Zu den Informationen, die für jede Aufgabe angezeigt werden, gehören der Name der Aufgabe, der Status, die Job-ID, die Partition, die Laufzeit, die Knoten, die von erstellt wurden, und die Aktionen.

Für eine Liste und Details zu vergangenen Jobs verwenden Sie den sacctBefehl in JupyterLab oder einem Code-Editor-Terminal. Der sacct Befehl wird verwendet, um historische Informationen über Jobs anzuzeigen, die im System abgeschlossen oder abgeschlossen wurden. Er stellt Abrechnungsinformationen bereit, einschließlich der Nutzung von Jobressourcen wie Speicher und Exit-Status.

Standardmäßig können alle Studio-Benutzer alle verfügbaren Slurm-Aufgaben anzeigen, verwalten und mit ihnen interagieren. Informationen zur Beschränkung der sichtbaren Aufgaben auf Studio-Benutzer finden Sie unter Beschränken Sie die Aufgabenansicht in Studio für Slurm-Cluster.

For Amazon EKS clusters

Für Amazon EKS-Cluster werden kubeflow (PyTorch, MPI, TensorFlow) -Aufgaben in der Tabelle aufgeführt. PyTorch Aufgaben werden standardmäßig angezeigt. Sie können nach PyTorch, MPI und TensorFlow unter Aufgabentyp sortieren. Zu den Informationen, die für jede Aufgabe angezeigt werden, gehören der Aufgabenname, der Status, der Namespace, die Prioritätsklasse und die Erstellungszeit.

Standardmäßig können alle Benutzer Jobs in allen NameBereiche anzeigen. Informationen zum Einschränken der sichtbaren Kubernetes-Namespaces, die Studio-Benutzern zur Verfügung stehen, finden Sie unter Beschränken Sie die Aufgabenansicht in Studio für EKS-Cluster. Wenn ein Benutzer die Aufgaben nicht sehen kann und aufgefordert wird, einen Namespace anzugeben, muss er sich diese Informationen vom Administrator holen.

Kennzahlen

Amazon SageMaker HyperPod bietet einen Überblick über Ihre Slurm- oder Amazon EKS-Cluster-Nutzungsmetriken. Im Folgenden finden Sie Informationen zu Ihren HyperPod Cluster-Metriken.

Sie müssen das Amazon-EKS-Add-on installieren, um die folgenden Metriken anzeigen zu können. Weitere Informationen finden Sie unter Installieren des Amazon CloudWatch Observability EKS-Add-ons.

In Amazon SageMaker Studio können Sie zu einem Ihrer HyperPodCluster in Clustern (unter Compute) navigieren und die Metrikdetails zu Ihrem Cluster einsehen. Metrics bietet einen umfassenden Überblick über die Metriken zur Cluster-Auslastung, einschließlich Hardware-, Team- und Aufgabenmetriken. Dazu gehören die Verfügbarkeit und Nutzung von Rechenleistung, Teamzuweisung und -auslastung sowie Informationen zur Ausführung und Wartezeit von Aufgaben.

Einstellungen

Amazon SageMaker HyperPod bietet eine Ansicht Ihrer Cluster-Einstellungen. Im Folgenden finden Sie Informationen zu Ihren HyperPod Cluster-Einstellungen.

In Amazon SageMaker Studio können Sie zu einem Ihrer HyperPodCluster in Clustern (unter Compute) navigieren und die Einstellungsinformationen zu Ihrem Cluster einsehen. Die Informationen umfassen Folgendes:

  • Instance-Details, einschließlich Instance-ID, Status, Instance-Typ und Instance-Gruppe

  • Details zu Instance-Gruppen, einschließlich Name, Typ, Anzahl und Recheninformationen der Instance-Gruppe

  • Einzelheiten zur Orchestrierung, einschließlich Orchestrator, Version und Zertifizierungsstelle

  • Einzelheiten zur Cluster-Resilienz

  • Sicherheitsdetails, einschließlich Subnetze und Sicherheitsgruppen

IDE und Notebooks

Amazon SageMaker HyperPod bietet einen Überblick über die Entwicklungsbereiche, die auf Ihrem Cluster ausgeführt werden. Spaces sind eigenständige Umgebungen, in denen IDEs JupyterLab oder Code Editor-IDEs direkt auf Ihrem HyperPod EKS-Cluster ausgeführt werden können. Sie können Spaces direkt in Studio erstellen, konfigurieren, starten, beenden und öffnen.

Navigieren Sie in Amazon SageMaker Studio zu einem Ihrer HyperPodCluster in Clustern (unter Compute) und wählen Sie die Registerkarte IDE und Notebooks.

Zu den wichtigsten Funktionen, die über Studio verfügbar sind, gehören:

  • Erstellen Sie mithilfe eines geführten Formulars Bereiche mit konfigurierbaren Rechen-, Speicher- und Bildeinstellungen.

  • Zeigen Sie alle Bereiche in einer durchsuchbaren Tabelle an, in der Name, Anwendungstyp, Status, Zugriffstyp, Speicher-, GPU- und vCPU-Zuweisungen angezeigt werden.

  • Sie können Spaces mit einem einzigen Klick starten und beenden, um die Rechenkosten zu verwalten.

  • Öffnen Sie Spaces direkt im Browser (JupyterLab oder Code-Editor) oder stellen Sie eine Verbindung über eine Remote-IDE her. Weitere Informationen finden Sie unter Fernzugriff auf SageMaker Spaces.

  • Löschen Sie Leerzeichen, die nicht mehr benötigt werden.

  • Wählen Sie Namespaces aus, um Bereiche nach Teams mit Ressourcenkontingenten und Verwaltungseinstellungen zu organisieren.

  • Wenden Sie Vorlagen für konsistente Raumkonfigurationen in allen Teams an.

Weitere Informationen zum Erstellen einer Domain finden Sie unter Leitfaden zur Einrichtung von Amazon SageMaker AI.

Voraussetzungen

  • Installieren Sie das HyperPod Add-on auf Ihrem Cluster. Weitere Informationen finden Sie unter Installieren Sie SageMaker AI Spaces Add-on.

  • Richten Sie Ihren Cluster für die Verwendung in Studio ein. Weitere Informationen finden Sie unter Einen Amazon-EKS-Cluster in Studio einrichten.

  • Um private Bereiche für Benutzer mit derselben Ausführungsrolle zu aktivieren, müssen Sie sicherstellen, dass das ExecutionRoleSessionNameMode Flag auf gesetzt istUSER_IDENTITY. Mit der HyperPod Spaces-Funktion wird der im Bereich verwendete Benutzername automatisch aus dem Studio-Authentifizierungskontext abgeleitet, sodass Benutzer in Studio und HyperPod Spaces eine einheitliche Identität haben können, ohne dass eine zusätzliche Anmeldung erforderlich ist.

    Bei Studio-Domänen, die im IAM-Authentifizierungsmodus konfiguriert sind, wird der Spaces-Benutzername vom Sitzungsnamen der IAM-Rolle abgeleitet. Dies entspricht der IAM-Sitzung, die zum Starten von Studio verwendet wurde, entweder über die AWS Management Console oder über eine vorsignierte Studio-URL. Für Studio-Domänen, die im IAM Identity Center-Authentifizierungsmodus konfiguriert sind, ist der Spaces-Benutzername der bereinigte authentifizierte IAM Identity Center-Benutzername.

    Dieser Wert ist standardmäßig für neue Domains festgelegt und kann für ältere Domains außer Kraft gesetzt werden. Diese Einstellung kann auch für jedes Benutzerprofil außer Kraft gesetzt werden. Weitere Informationen finden Sie unter Modus „Sitzungsname“ der Ausführungsrolle.

Funktionsweise

Sobald das Add-on installiert und der Zugriff konfiguriert ist, navigieren Sie zu Ihrem HyperPod Cluster in Studio und wählen Sie die Registerkarte IDE und Notebooks aus, um die Oberfläche zur Verwaltung von Speicherplätzen aufzurufen.

Erstellen einer Umgebung

Um einen neuen Bereich zu erstellen, wählen Sie Bereich erstellen. Mit dem Erstellungsformular können Sie Folgendes konfigurieren:

  • Namespace: Wählen Sie Ihren Team-Namespace mit Ressourcenkontingenten und Governance-Einstellungen aus. Dies bestimmt Ihre verfügbare Rechenzuweisung.

  • Raumeinstellungen:

    • Vorlage: Wählen Sie eine vorkonfigurierte Vorlage (z. B. JupyterLab oder den Code-Editor) aus, um die Standardeinstellungen anzuwenden.

    • Rechnen: Wählen Sie zwischen GPU- und CPU-Konfigurationen mit detaillierter Steuerung über GPUs, vCPUs und Speicher.

    • GPU-Partition: Wenn die fraktionierte GPU aktiviert ist, können Sie eine Partition auswählen, die für Ihren Workspace verwendet werden soll.

    • Bild: Wählen Sie aus verfügbaren Container-Images oder benutzerdefinierten Images, die von Ihrem Administrator konfiguriert wurden.

    • EBS-Speicherspeicher: Konfigurieren Sie persistenten Speicher für Ihre Notizbücher und Daten.

  • Task-Governance: Wenn Spaces für den Namespace aktiviert sind, lassen sie sich in die HyperPod Task-Governance für das Ressourcenmanagement und die Prioritätsplanung integrieren. Weitere Informationen finden Sie unter Aufgabenverwaltung für interaktive Bereiche aktiviert HyperPod.

Verwaltung von Räumen

Die Spaces-Tabelle bietet eine konsolidierte Ansicht all Ihrer Umgebungen, einschließlich Status und Ressourcenzuweisungen.

In der Spalte Aktionen können Sie:

  • Stoppen Sie einen laufenden Speicherplatz, um Rechenressourcen freizugeben und gleichzeitig Ihre Daten im EBS-Speicher beizubehalten.

  • Öffnen Sie den Bereich in Ihrem Browser, um die Weboberfläche JupyterLab oder den Code Editor zu starten.

  • Stellen Sie eine Connect mit einer Remote-IDE her. Weitere Informationen finden Sie unter Fernzugriff auf SageMaker Spaces.

Verbindung zu deinem Space herstellen

Spaces unterstützt zwei Verbindungsmethoden:

Zugriff auf die Web-Benutzeroberfläche

Wählen Sie in der Spaces-Tabelle Öffnen aus, um die IDE direkt in Ihrem Browser zu starten. Dadurch wird eine voll funktionsfähige Oberfläche JupyterLab oder eine Code-Editor-Oberfläche geöffnet, die auf Ihrem HyperPod Cluster gehostet wird. Außer einem Webbrowser ist keine lokale Softwareinstallation erforderlich. Dies ist ideal für schnelle Iterationen, Erkundungen auf Notizbuchbasis und kollaboratives Arbeiten. Informationen zum Aktivieren des Zugriffs auf die Webbenutzeroberfläche auf Ihrem Cluster finden Sie unter. Zugriff über einen Webbrowser

IDE-Fernverbindung

Wählen Sie in der Spaces-Tabelle die Option In Remote-IDE öffnen, um Ihre lokale IDE mit dem Space zu verbinden, auf dem sie ausgeführt wird HyperPod. Dies bietet eine sichere Verbindung, ohne dass Sie SSH-Schlüssel verwalten oder Port 22 offenlegen müssen. Sie erhalten die volle Leistung Ihrer lokalen Entwicklungsumgebung, während Sie Code auf HyperPod Cluster-Computern ausführen. Weitere Informationen finden Sie unter Fernzugriff auf SageMaker Spaces.

Details

Amazon SageMaker HyperPod bietet eine Ansicht Ihrer Cluster-Metadatendetails. Der folgende Abschnitt enthält Informationen darüber, wie Sie Ihre HyperPod Clusterdetails abrufen können.

In Amazon SageMaker Studio können Sie zu einem Ihrer HyperPodCluster in Clustern (unter Compute) navigieren und die Details zu Ihrem Cluster anzeigen. Dazu gehören die Tags, Protokolle und Metadaten.