Amazon SageMaker-Debugger - Amazon SageMaker AI

Amazon SageMaker-Debugger

Debuggen Sie Modellausgabetensoren von Trainingsjobs für Machine Learning in Echtzeit und erkennen Sie nicht konvergierende Probleme mit dem Amazon SageMaker Debugger.

Features von Amazon SageMaker Debugger

Bei einem Trainingsjob für Machine Learning (ML) können Probleme auftreten, wie z. B. eine Überanpassung, gesättigte Aktivierungsfunktionen und verschwindende Farbverläufe, die die Modellleistung beeinträchtigen können.

SageMaker Debugger bietet Tools zum Debuggen von Trainingsjobs und zum Beheben solcher Probleme, um die Leistung Ihres Modells zu verbessern. Der Debugger bietet auch Tools, mit denen Warnmeldungen gesendet werden können, wenn Trainingsanomalien festgestellt werden, Maßnahmen zur Behebung der Probleme ergriffen und die Hauptursache dafür identifiziert werden können, indem gesammelte Metriken und Tensoren visualisiert werden.

SageMaker Debugger unterstützt die Frameworks Apache MXNet, PyTorch, TensorFlow und XGBoost. Weitere Informationen zu verfügbaren Frameworks und Versionen, die vom SageMaker Debugger unterstützt werden, finden Sie unter Unterstützte Frameworks und Algorithmen.

Überblick über die Funktionsweise von Amazon SageMaker Debugger.

Der High-Level-Debugger-Workflow sieht wie folgt aus:

  1. Ändern Sie Ihr Trainingsskript bei Bedarf mit dem sagemaker-debugger Python-SDK.

  2. Konfigurieren Sie einen SageMaker-Trainingsjob mit SageMaker Debugger.

  3. Starten Sie einen Trainingsjob und überwachen Sie Trainingsprobleme in Echtzeit.

  4. Erhalten Sie Benachrichtigungen und ergreifen Sie umgehend Maßnahmen gegen die Trainingsprobleme.

  5. Erkunden Sie eine eingehende Analyse der Trainingsprobleme.

  6. Beheben Sie die Probleme, berücksichtigen Sie die Vorschläge des Debuggers und wiederholen Sie die Schritte 1–5, bis Sie Ihr Modell optimiert und die Zielgenauigkeit erreicht haben.

Das SageMaker Debugger-Entwicklerhandbuch führt Sie durch die folgenden Themen.