Stellen Sie von SageMaker Studio oder Studio Classic aus eine Connect zu einem Amazon EMR-Cluster her - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Stellen Sie von SageMaker Studio oder Studio Classic aus eine Connect zu einem Amazon EMR-Cluster her

Datenwissenschaftler und Dateningenieure können einen Amazon EMR-Cluster auffinden und dann eine Verbindung zu ihm herstellen. Stellen Sie zunächst sicher, dass Sie die erforderlichen Berechtigungen wie im Schritt 4: Richten Sie die Berechtigungen ein, um das Auflisten und Starten von Amazon EMR-Clustern von Studio aus zu ermöglichen Abschnitt beschrieben konfiguriert haben. Diese Berechtigungen gewähren Studio die Möglichkeit, Cluster zu erstellen, zu starten, anzuzeigen, darauf zuzugreifen und sie zu beenden.

Sie können einen Amazon EMR-Cluster direkt über die Studio-Benutzeroberfläche mit einem neuen JupyterLab Notebook verbinden oder die Verbindung in einem Notizbuch einer laufenden JupyterLab Anwendung initiieren.

Wichtig

Sie können nur Amazon EMR-Cluster für und Studio Classic-Anwendungen erkennen JupyterLab und eine Verbindung zu diesen herstellen, die von privaten Bereichen aus gestartet werden. Stellen Sie sicher, dass sich die Amazon EMR-Cluster in derselben AWS Region wie Ihre Studio-Umgebung befinden. Ihr JupyterLab Bereich muss eine SageMaker Distributions-Image-Version 1.10 oder höher verwenden.

Eine Connect zu einem Amazon-EMR-Cluster über die Studio-Benutzeroberfläche herstellen

Um über die Benutzeroberfläche von Studio oder Studio Classic eine Verbindung zu Ihrem Cluster herzustellen, können Sie entweder über die Liste der Cluster, auf die zugegriffen wirdAmazon EMR-Cluster aus Studio oder Studio Classic auflisten, oder über ein Notizbuch in SageMaker Studio oder Studio Classic eine Verbindung herstellen.

So verbinden Sie einen Amazon EMR-Cluster über die Studio-Benutzeroberfläche mit einem neuen JupyterLab Notebook:
  1. Wählen Sie im linken Bereich der Studio-Benutzeroberfläche den Knoten Daten im linken Navigationsbereich aus. Navigieren Sie nach unten zu Amazon EMR-Anwendungen und -Clustern. Daraufhin wird eine Seite mit einer Aufstellung der Amazon-EMR-Cluster geöffnet, auf die Sie von SageMaker Studio aus Zugriff haben.

    Anmerkung

    Wenn Sie oder Ihr Administrator die Berechtigungen so konfiguriert haben, dass sie den kontoübergreifenden Zugriff auf Amazon EMR-Cluster ermöglichen, können Sie eine konsolidierte Liste der Cluster für alle Konten anzeigen, denen Sie Zugriff auf Studio gewährt haben.

  2. Wählen Sie einen Amazon EMR-Cluster aus, den Sie mit einem neuen Notebook verbinden möchten, und wählen Sie dann An Notebook anfügen. Dadurch wird ein modales Fenster geöffnet, in dem die Liste Ihrer JupyterLab Spaces angezeigt wird.

    • Wählen Sie den Bereich aus, von dem aus Sie eine JupyterLab Anwendung starten möchten, und wählen Sie dann Notizbuch öffnen. Dadurch wird eine JupyterLab Anwendung aus dem ausgewählten Bereich gestartet und ein neues Notizbuch geöffnet.

      Anmerkung

      Benutzer von Studio Classic müssen ein Image und einen Kernel auswählen. Eine Liste der unterstützten Images finden Sie unter Unterstützte Images und Kernel für die Verbindung zu einem Amazon-EMR-Cluster von Studio oder Studio Classic aus oder unter Bring Your Own Image.

    • Alternativ können Sie einen neuen privaten Bereich erstellen, indem Sie oben im modalen Fenster auf die Schaltfläche Neuen Bereich erstellen klicken. Geben Sie einen Namen für Ihren Bereich ein und wählen Sie dann Bereich erstellen und Notebook öffnen. Dadurch wird ein privater Bereich mit dem Standard-Instanztyp und dem neuesten verfügbaren SageMaker Distributions-Image erstellt, eine JupyterLab Anwendung gestartet und ein neues Notizbuch geöffnet.

  3. Wenn der von Ihnen ausgewählte Cluster keine Authentifizierung über Kerberos-, LDAP- oder Lauzeit-Rollen verwendet, fordert Studio Sie auf, den Typ der Anmeldeinformation auszuwählen. Sie können zwischen HTTP-Basisauthentifizierung oder Keine Anmeldeinformationen wählen und dann ggf. Ihre Anmeldeinformationen eingeben.

    Wenn der von Ihnen ausgewählte Cluster Runtime-Rollen unterstützt, wählen Sie den Namen der IAM-Rolle, die Ihr Amazon EMR-Cluster für die Auftragsausführung annehmen kann.

    Wichtig

    Um ein JupyterLab Notebook erfolgreich mit einem Amazon EMR-Cluster zu verbinden, der Runtime-Rollen unterstützt, müssen Sie zunächst die Liste der Runtime-Rollen mit Ihrer Domain oder Ihrem Benutzerprofil verknüpfen, wie unter beschrieben. Konfigurieren Sie IAM-Laufzeitrollen für den Amazon EMR-Clusterzugriff in Studio Wenn Sie diesen Schritt nicht abschließen, können Sie die Verbindung nicht herstellen.

    Ein Verbindungsbefehl füllt die erste Zelle Ihres Notebooks aus und initiiert die Verbindung mit dem Amazon-EMR-Cluster.

    Sobald die Verbindung hergestellt wurde, bestätigt eine Meldung die Verbindung und den Start der Spark-Anwendung.

Alternativ können Sie von einem Notebook JupyterLab oder einem Studio Classic-Notebook aus eine Verbindung zu einem Cluster herstellen.
  1. Wählen Sie oben in Ihrem Notebook die Option Cluster aus. Dadurch wird ein modales Fenster geöffnet, in dem die Amazon EMR-Cluster in einem Running Status aufgeführt sind, auf den Sie Zugriff haben. Sie können die Running Amazon EMR-Cluster auf der Registerkarte Amazon EMR-Cluster sehen.

    Anmerkung

    Für die Benutzer von Studio Classic ist Cluster nur sichtbar, wenn Sie einen Kernel von Unterstützte Images und Kernel für die Verbindung zu einem Amazon-EMR-Cluster von Studio oder Studio Classic aus oder von verwendenBring Your Own Image. Wenn Sie oben in Ihrem Notebook nicht Cluster sehen können, vergewissern Sie sich, dass Ihr Administrator die Auffindbarkeit Ihrer Cluster konfiguriert hat, und wechseln Sie zu einem unterstützten Kernel.

  2. Wählen Sie den Cluster aus, zu dem Sie eine Verbindung herstellen möchten, und wählen Sie dann Verbinden aus.

  3. Wenn Sie Ihre Amazon EMR-Cluster so konfiguriert haben, dass sie IAM-Laufzeitrollen unterstützen, können Sie Ihre Rolle im Auswahlmenü Amazon EMR-Ausführungsrolle auswählen.

    Wichtig

    Um ein JupyterLab Notebook erfolgreich mit einem Amazon EMR-Cluster zu verbinden, der Runtime-Rollen unterstützt, müssen Sie zunächst die Liste der Runtime-Rollen mit Ihrer Domain oder Ihrem Benutzerprofil verknüpfen, wie unter beschrieben. Konfigurieren Sie IAM-Laufzeitrollen für den Amazon EMR-Clusterzugriff in Studio Wenn Sie diesen Schritt nicht abschließen, können Sie die Verbindung nicht herstellen.

    Andernfalls, wenn der von Ihnen gewählte Cluster keine Authentifizierung über eine Kerberos-, LDAP- oder Laufzeit-Rolle verwendet, fordert Studio oder Studio Classic Sie auf, den Typ der Anmeldeinformationen auszuwählen. Sie können die HTTP-Basisauthentifizierung oder Keine Anmeldeinformationen wählen.

  4. Studio fügt einen Codeblock hinzu und führt ihn anschließend aus, um die Verbindung herzustellen. Dieses Feld enthält den Befehl Connection Magic, mit dem Sie Ihr Notebook entsprechend Ihrem Authentifizierungstyp mit Ihrer Anwendung verbinden können.

    Sobald die Verbindung hergestellt wurde, bestätigt eine Meldung die Verbindung und den Start der Spark-Anwendung.

Eine Connect zu einem Amazon-EMR-Cluster mithilfe eines Verbindungsbefehls herstellen

Um eine Verbindung zu einem Amazon EMR-Cluster herzustellen, können Sie Verbindungsbefehle innerhalb einer Notebook-Zelle ausführen.

Beim Herstellen der Verbindung können Sie sich mit Kerberos, Lightweight Directory Access Protocol (LDAP) oder Runtime-IAM-Rollenauthentifizierung authentifizieren. Die Authentifizierungsmethode, die Sie auswählen, hängt von der Konfiguration Ihres Clusters ab.

In diesem Beispiel können Sie Apache Livy mit einem Network Load Balancer auf einem Kerberos-fähigen Amazon-EMR-Cluster aufrufen, um einen Amazon-EMR-Cluster einzurichten, der Kerberos verwendet. Alternativ können Sie sich die CloudFormation Beispielvorlagen mit Kerberos- oder LDAP-Authentifizierung im aws-samples/ Repository ansehen. sagemaker-studio-emr GitHub

Wenn Ihr Administrator den kontoübergreifenden Zugriff aktiviert hat, können Sie von einem Studio Classic-Notebook aus eine Verbindung zu Ihrem Amazon EMR-Cluster herstellen, unabhängig davon, ob sich Ihre Studio Classic-Anwendung und Ihr Cluster im selben AWS Konto oder in unterschiedlichen Konten befinden.

Verwenden Sie für jeden der folgenden Authentifizierungstypen den angegebenen Befehl, um von Ihrem Studio- oder Studio-Classic-Notebook aus eine Verbindung zu Ihrem Cluster herzustellen.

  • Kerberos

    Fügen Sie das Argument --assumable-role-arn an, wenn Sie kontenübergreifenden Zugriff auf Amazon EMR benötigen. Fügen Sie das Argument --verify-certificate an, wenn Sie die Verbindung zu Ihrem Cluster über HTTPS herstellen.

    %load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-id cluster_id \ --auth-type Kerberos --language python [--assumable-role-arn EMR_access_role_ARN ] [--verify-certificate /home/user/certificateKey.pem]
  • LDAP

    Fügen Sie das Argument --assumable-role-arn an, wenn Sie kontenübergreifenden Zugriff auf Amazon EMR benötigen. Fügen Sie das Argument --verify-certificate an, wenn Sie die Verbindung zu Ihrem Cluster über HTTPS herstellen.

    %load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-id cluster_id \ --auth-type Basic_Access --language python [--assumable-role-arn EMR_access_role_ARN ] [--verify-certificate /home/user/certificateKey.pem]
  • NoAuth

    Fügen Sie das Argument --assumable-role-arn an, wenn Sie kontenübergreifenden Zugriff auf Amazon EMR benötigen. Fügen Sie das Argument --verify-certificate an, wenn Sie die Verbindung zu Ihrem Cluster über HTTPS herstellen.

    %load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-id cluster_id \ --auth-type None --language python [--assumable-role-arn EMR_access_role_ARN ] [--verify-certificate /home/user/certificateKey.pem]
  • Laufzeit IAM-Rollen

    Fügen Sie das Argument --assumable-role-arn an, wenn Sie kontenübergreifenden Zugriff auf Amazon EMR benötigen. Fügen Sie das Argument --verify-certificate an, wenn Sie die Verbindung zu Ihrem Cluster über HTTPS herstellen.

    Weitere Informationen dazu, wie Sie mithilfe von Runtime-IAM-Rollen eine Verbindung mit einem Amazon-EMR-Cluster herstellen können, finden Sie unter. Konfigurieren Sie IAM-Laufzeitrollen für den Amazon EMR-Clusterzugriff in Studio

    %load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-id cluster_id \ --auth-type Basic_Access \ --emr-execution-role-arn arn:aws:iam::studio_account_id:role/emr-execution-role-name [--assumable-role-arn EMR_access_role_ARN] [--verify-certificate /home/user/certificateKey.pem]

Eine Verbindung zu einem Amazon-EMR-Cluster über HTTPS herstellen

Wenn Sie Ihren Amazon-EMR-Cluster mit aktivierter Transitverschlüsselung und Apache Livy-Server für HTTPS konfiguriert haben und möchten, dass Studio über HTTPS mit Amazon EMR kommuniziert, müssen Sie Studio für den Zugriff auf Ihren Zertifikatsschlüssel konfigurieren.

Bei selbstsignierten oder von einer lokalen Zertifizierungsstelle (CA) signierten Zertifikaten können Sie dies in zwei Schritten tun:

  1. Laden Sie die PEM-Datei Ihres Zertifikates mit einer der folgenden Optionen in Ihr lokales Dateisystem herunter:

  2. Aktivieren Sie die Validierung des Zertifikates, indem Sie im Argument --verify-certificate Ihres Verbindungsbefehls den Pfad zu Ihrem Zertifikat angeben.

    %sm_analytics emr connect --cluster-id cluster_id \ --verify-certificate /home/user/certificateKey.pem ...

Für Zertifikate, die von einer öffentlichen Zertifizierungsstelle ausgestellt wurden, legen Sie die Validierung des Zertifikates fest, indem Sie den --verify-certificate Parameter auf true setzen.

Alternativ können Sie die Validierung von Zertifikaten abschalten, indem Sie den --verify-certificate Parameter auf false setzen.

Die Liste der verfügbaren Verbindungsbefehle zu einem Amazon EMR-Cluster finden Sie unter Eine Connect zu einem Amazon-EMR-Cluster mithilfe eines Verbindungsbefehls herstellen.