Ihr TensorFlow-Trainingsskript anpassen - Amazon SageMaker AI

Ihr TensorFlow-Trainingsskript anpassen

Nehmen Sie die folgenden Änderungen an Ihrem TensorFlow-Trainingsskript vor, um mit dem Sammeln von Modellausgabetensoren und dem Debuggen von Trainingsproblemen zu beginnen.

Einen Hook für Trainingsjobs in SageMaker AI erstellen

import smdebug.tensorflow as smd hook=smd.get_hook(hook_type="keras", create_if_not_exists=True)

Dadurch entsteht ein Hook, wenn Sie einen SageMaker-Trainingsauftrag starten. Wenn Sie einen Trainingsjob in Trainingsjobs mit dem Debugger und SageMaker Python SDK starten mit einem DebuggerHookConfig, TensorBoardConfig oder Rules in Ihrem Schätzer starten, fügt SageMaker AI Ihrer Trainings-Instance eine JSON-Konfigurationsdatei hinzu, die von der smd.get_hook-Methode übernommen wird. Beachten Sie, dass der Hook keine Konfigurationsdatei finden kann, wenn Sie keine der Konfigurations-APIs in Ihren Estimator aufnehmen, und die Funktion zurückkehrt None.

(Optional) Erstellen Sie einen Hook für Trainingsjobs außerhalb von SageMaker AI

Wenn Sie Trainingsaufträge im lokalen Modus, direkt auf SageMaker Notebook-Instances, Amazon-EC2-Instances oder Ihren eigenen lokalen Geräten ausführen, verwenden Sie smd.Hook class, um einen Hook zu erstellen. Dieser Ansatz kann jedoch nur die Tensorsammlungen speichern und für die TensorBoard-Visualisierung verwendet werden. Die integrierten Regeln des SageMaker Debuggers funktionieren nicht im lokalen Modus. Die smd.get_hook Methode kehrt auch in diesem Fall zurück None.

Wenn Sie einen manuellen Hook erstellen möchten, verwenden Sie den folgenden Codeausschnitt mit der Logik, um zu überprüfen, ob der Hook zurückkehrt None und erstellen Sie mithilfe der smd.Hook Klasse einen manuellen Hook.

import smdebug.tensorflow as smd hook=smd.get_hook(hook_type="keras", create_if_not_exists=True) if hook is None: hook=smd.KerasHook( out_dir='/path/to/your/local/output/', export_tensorboard=True )

Fahren Sie nach dem Hinzufügen des Hook-Erstellungscodes mit dem folgenden Thema für TensorFlow Keras fort.

Anmerkung

SageMaker Debugger unterstützt derzeit nur TensorFlow Keras.

Registrieren Sie den Hook in Ihrem TensorFlow Keras-Trainingsskript

Im folgenden Verfahren erfahren Sie, wie Sie den Hook und seine Methoden verwenden, um Ausgabeskalare und Tensoren aus Ihrem Modell und Optimierer zu sammeln.

  1. Verpacken Sie Ihr Keras-Modell und Ihren Optimierer mit den Klassenmethoden des Hooks.

    Die hook.register_model() Methode verwendet Ihr Modell und durchläuft jede Ebene. Dabei wird nach Tensoren gesucht, die mit den regulären Ausdrücken übereinstimmen, die Sie in der Konfiguration in Trainingsjobs mit dem Debugger und SageMaker Python SDK starten angeben. Die Tensoren, die mit dieser Hook-Methode gesammelt werden können, sind Gewichtungen, Verzerrungen und Aktivierungen.

    model=tf.keras.Model(...) hook.register_model(model)
  2. Umschließen Sie den Optimizer nach der hook.wrap_optimizer() Methode.

    optimizer=tf.keras.optimizers.Adam(...) optimizer=hook.wrap_optimizer(optimizer)
  3. Kompilieren Sie das Modell im Eager-Modus in TensorFlow.

    Um Tensoren aus dem Modell zu sammeln, z. B. die Eingabe- und Ausgabetensoren jeder Schicht, müssen Sie das Training im Eager-Modus ausführen. Andernfalls kann SageMaker AI Debugger die Tensoren nicht sammeln. Andere Tensoren, wie Modellgewichte, Verzerrungen und Verluste, können jedoch erfasst werden, ohne dass sie explizit im Eager-Modus ausgeführt werden.

    model.compile( loss="categorical_crossentropy", optimizer=optimizer, metrics=["accuracy"], # Required for collecting tensors of each layer run_eagerly=True )
  4. Registrieren Sie den Hook für die tf.keras.Model.fit() Methode.

    Um die Tensoren aus den Hooks zu sammeln, die Sie registriert haben, fügen Sie callbacks=[hook] der Keras model.fit() Klassenmethode hinzu. Dadurch wird der sagemaker-debugger Hook als Keras-Callback übergeben.

    model.fit( X_train, Y_train, batch_size=batch_size, epochs=epoch, validation_data=(X_valid, Y_valid), shuffle=True, callbacks=[hook] )
  5. TensorFlow 2.x bietet nur symbolische Gradientenvariablen, die keinen Zugriff auf ihre Werte bieten. Um Farbverläufe zu sammeln, wenden tf.GradientTape Sie sich an die hook.wrap_tape() Methode, bei der Sie Ihren eigenen Trainingsschritt wie folgt schreiben müssen.

    def training_step(model, dataset): with hook.wrap_tape(tf.GradientTape()) as tape: pred=model(data) loss_value=loss_fn(labels, pred) grads=tape.gradient(loss_value, model.trainable_variables) optimizer.apply_gradients(zip(grads, model.trainable_variables))

    Durch das Umwickeln des Bandes kann der sagemaker-debugger Hook Ausgangstensoren wie Gradienten, Parameter und Verluste identifizieren. Durch das Umwickeln des Bandes wird sichergestellt, dass die hook.wrap_tape() Methode um Funktionen des Bandobjekts herum, wie push_tape(), pop_tape(), gradient() die Autor von SageMaker Debugger einrichtet und Tensoren speichert, die als Eingabe für gradient() (trainierbare Variablen und Verlust) und Ausgabe von gradient() (Gradienten) bereitgestellt werden.

    Anmerkung

    Um Daten mit einer benutzerdefinierten Trainingsschleife zu sammeln, stellen Sie sicher, dass Sie den Eager-Modus verwenden. Andernfalls kann SageMaker Debugger keine Tensoren sammeln.

Eine vollständige Liste der Aktionen, die die sagemaker-debugger Hook-APIs zum Erstellen von Hooks und Speichern von Tensoren anbieten, finden Sie unter Hook-Methoden in der sagemaker-debuggerPython SDK-Dokumentation.

Nachdem Sie die Anpassung Ihres Trainingsskripts abgeschlossen haben, fahren Sie mit Trainingsjobs mit dem Debugger und SageMaker Python SDK starten fort.