TensorBoard in Amazon SageMaker AI - Amazon SageMaker AI

TensorBoard in Amazon SageMaker AI

Amazon SageMaker AI mit TensorBoard ist eine Funktion von Amazon SageMaker AI, die die Visualisierungstools von TensorBoard in SageMaker Training und SageMaker Domain integriert. Es bietet Optionen zur Verwaltung Ihres AWS-Kontos und der zum Konto gehörenden Benutzer über SageMaker AI Domain, um den Domain-Benutzern Zugriff auf die TensorBoard-Daten mit entsprechenden Berechtigungen für Amazon S3 zu gewähren und die Domain-Benutzer bei der Durchführung von Modell-Debugging-Aufgaben mithilfe der TensorBoard-Visualisierungs-Plugins zu unterstützen. SageMaker AI mit TensorBoard wird um das Data-Manager-Plugin von SageMaker AI erweitert, mit dem Domain-Benutzer innerhalb der TensorBoard-Anwendung an einem Ort auf eine Reihe von Trainingsjobs zugreifen können.

Anmerkung

Diese Funktion dient zum Debuggen des Trainings von Deep-Learning-Modellen mit PyTorch oder TensorFlow.

Für Datenwissenschaftler

Das Training großer Modelle kann zu wissenschaftlichen Problemen führen, bei denen Datenwissenschaftler sie debuggen und lösen müssen, um die Modellkonvergenz zu verbessern und Gradientenabstiegsprozesse zu stabilisieren.

Wenn Sie auf Probleme beim Modelltraining stoßen, wie z. B. Verlust statt Konvergenz oder verschwindende oder explodierende Gewichte und Gradienten, müssen Sie auf Tensordaten zugreifen, um die Modellparameter, Skalare und alle benutzerdefinierten Metriken eingehend zu analysieren. Wenn Sie SageMaker AI mit TensorBoard verwenden, können Sie Modellausgabetensoren visualisieren, die aus Trainingsjobs extrahiert wurden. Wenn Sie mit verschiedenen Modellen, mehreren Trainingsläufen und Modellhyperparametern experimentieren, können Sie in TensorBoard mehrere Trainingsjobs auswählen und sie an einem Ort vergleichen.

Für Administratoren

Über die TensorBoard-Landingpage in der SageMaker-AI-Konsole oder SageMaker-AI-Domain können Sie Benutzer der TensorBoard-Anwendung verwalten, wenn Sie Administrator eines AWS Kontos oder einer SageMaker AI-Domain sind. Jeder Domain-Benutzer kann mit den erteilten Berechtigungen auf seine eigene TensorBoard-Anwendung zugreifen. Als Administrator und Benutzer der SageMaker-AI-Domain können Sie die TensorBoard-Anwendung mit der entsprechenden Berechtigungsstufe erstellen und löschen.

Anmerkung

Sie können die TensorBoard-Anwendungen nicht für Zwecke der Zusammenarbeit gemeinsam nutzen, da die SageMaker-AI-Domain die gemeinsame Nutzung von Anwendungen durch Benutzer nicht zulässt. Benutzer können die in einem S3-Bucket gespeicherten Ausgabetensoren gemeinsam nutzen, wenn sie Zugriff auf den Bucket haben.

Unterstützte Frameworks und AWS-Regionen

Die TensorBoard-Anwendung in SageMaker AI ist für die folgenden Machine-Learning-Frameworks und AWS-Regionen verfügbar.

Frameworks
  • PyTorch

  • TensorFlow

  • Transformers mit Hugging Face

AWS-Regionen
  • USA Ost (Nord-Virginia) (us-east-1)

  • USA Ost (Ohio) (us-east-2)

  • USA West (Oregon) (us-west-2)

  • Europa (Frankfurt) (eu-central-1)

  • Europa (Irland) (eu-west-1)

Anmerkung

Amazon SageMaker AI mit TensorBoard wird auf einer ml.r5.large-Instance ausgeführt und es fallen Gebühren an, wenn das kostenlose Nutzungskontingent für SageMaker AI oder die kostenlose Testphase der Funktion abgelaufen ist. Weitere Informationen finden Sie unter Gebühren für Amazon SageMaker AI.