Debuggen und Verbessern der Modellleistung
Der Kern das Training von Modellen für Machine Learning, neuronalen Deep-Learning-Netzwerken und Transformatormodellen besteht darin, eine stabile Modellkonvergenz zu erreichen. Daher verfügen Modelle auf dem neuesten Stand der Technik über Millionen, Milliarden oder Billionen von Modellparametern. Die Anzahl der Operationen zur Aktualisierung der gigantischen Anzahl von Modellparametern während jeder Iteration kann leicht astronomisch werden. Um Probleme mit der Modellkonvergenz zu identifizieren, ist es wichtig, auf die Modellparameter, Aktivierungen und Gradienten zugreifen zu können, die während der Optimierungsprozesse berechnet wurden.
Amazon SageMaker AI bietet zwei Debugging-Tools, mit denen Sie solche Konvergenzprobleme identifizieren und sich einen Überblick über Ihre Modelle verschaffen können.
Amazon SageMaker AI mit TensorBoard
Um eine größere Kompatibilität mit den Open-Source-Community-Tools innerhalb der SageMaker-AI-Trainingsplattform zu gewährleisten, hostet SageMaker AI TensorBoard als Anwendung in der SageMaker-AI-Domain. Sie können Ihre Trainingsjobs zu SageMaker AI bringen und weiterhin den TensorBoard Summary Writer verwenden, um die Modellausgabetensoren zu sammeln. Da TensorBoard in die SageMaker-AI-Domain implementiert ist, bietet es Ihnen auch mehr Optionen zur Verwaltung von Benutzerprofilen unter der SageMaker-AI-Domain in Ihrem AWS-Konto und bietet eine genaue Kontrolle über die Benutzerprofile, indem es Zugriff auf bestimmte Aktionen und Ressourcen gewährt. Weitere Informationen hierzu finden Sie unter TensorBoard in Amazon SageMaker AI.
Amazon SageMaker-Debugger
Amazon SageMaker Debugger ist eine Funktion von SageMaker AI, die Tools zur Registrierung von Hooks für Callbacks bereitstellt, um Modellausgabetensoren zu extrahieren und im Amazon Simple Storage Service zu speichern. Es bietet integrierte Regeln zur Erkennung von Problemen mit der Modellkonvergenz, wie z. B. Überanpassung, gesättigte Aktivierungsfunktionen, verschwindende Farbverläufe und mehr. Sie können auch die integrierten Regeln mit Amazon CloudWatch Events einrichten und AWS Lambda automatische Maßnahmen gegen erkannte Probleme ergreifen. Außerdem können Sie Amazon Simple Notification Service für den Empfang von E-Mail- oder Textbenachrichtigungen einrichten. Weitere Informationen hierzu finden Sie unter Amazon SageMaker-Debugger.