Benutzerhandbuch - Amazon SageMaker AI

Benutzerhandbuch

In diesem Abschnitt wird beschrieben, wie Datenwissenschaftler und Dateningenieure von Studio oder Studio Classic aus einen Amazon EMR-Cluster starten, auffinden, eine Verbindung dazu herstellen oder ihn beenden können.

Bevor Benutzer Cluster auflisten oder starten können, müssen Administratoren die erforderlichen Einstellungen in der Studio-Umgebung konfiguriert haben. Informationen darüber, wie Administratoren eine Studio-Umgebung so konfigurieren können, dass sie die selbstständige Bereitstellung und die Auflistung von Amazon EMR-Clustern ermöglicht, finden Sie unter Admin-Leitfaden.

Unterstützte Images und Kernel für die Verbindung zu einem Amazon-EMR-Cluster von Studio oder Studio Classic aus

Die folgenden Images und Kernel werden mit sagemaker-studio-analytics-extension geliefert, der JupyterLab-Erweiterung, die mithilfe der SparkMagic-Bibliothek und Apache Livy die Verbindung zu einem Spark-Remote-Cluster (Amazon EMR) herstellt.

  • Für Studio-Benutzer: SageMaker Distribution ist eine Docker-Umgebung für Data Science, die als Standard-Image von JupyterLab-Notebook-Instances verwendet wird. Alle Versionen von SageMaker AI Distribution sind vorinstalliert. sagemaker-studio-analytics-extension

  • Für Studio Classic-Benutzer: Die folgenden Images sind vorinstalliert mit: sagemaker-studio-analytics-extension

    • DataScience – Python-3-Kernel

    • DataScience 2.0 – Python-3-Kernel

    • DataScience 3.0 – Python-3-Kernel

    • SparkAnalytics 1.0 – SparkMagic- und PySpark-Kernel

    • SparkAnalytics 2.0 – SparkMagic- und PySpark-Kernel

    • SparkMagic – SparkMagic- und PySpark-Kernel

    • PyTorch 1.8 – Python-3-Kernel

    • TensorFlow 2.6 – Python-3-Kernel

    • TensorFlow 2.11 – Python-3-Kernel

Um über ein anderes integriertes oder Ihr eigenes Image eine Verbindung zu Amazon EMR-Clustern herzustellen, folgen Sie den Anweisungen unter Bring Your on.

Bring Your on

Um Ihr eigenes Image in Studio oder Studio Classic zu integrieren und Ihren Notebooks die Verbindung zu Amazon-EMR-Clustern zu ermöglichen, installieren Sie die folgende Erweiterung sagemaker-studio-analytics-extension in Ihrem Kernel. Sie unterstützt die Verbindung von Notebooks von SageMaker Studio oder Studio Classic mit Spark-Clustern (Amazon EMR) über die SparkMagic-Bibliothek.

pip install sparkmagic pip install sagemaker-studio-sparkmagic-lib pip install sagemaker-studio-analytics-extension

Um mit Kerberos-Authentifizierung eine Verbindung zu Amazon EMR herzustellen, müssen Sie außerdem den Kinit-Client installieren. Je nach Betriebssystem kann der Befehl zur Installation des Kinit-Clients unterschiedlich sein. Verwenden Sie den Befehl apt-get install -y -qq krb5-user, um ein Ubuntu-Image (auf Basis von Debian) mitzubringen.

Weitere Informationen dazu, wie Sie Ihr eigenes Image für SageMaker Studio oder Studio Classic mitbringen können, finden Sie unter Eigenes SageMaker-Image mitbringen.