Configuration de l’accès réseau pour votre cluster Amazon EMR - Amazon SageMaker AI

Configuration de l’accès réseau pour votre cluster Amazon EMR

Avant de commencer à utiliser Amazon EMR ou EMR sans serveur pour vos tâches de préparation des données dans Studio, assurez-vous que vous ou votre administrateur avez configuré votre réseau pour autoriser la communication entre Studio et Amazon EMR. Une fois cette communication activée, vous pouvez choisir de :

Note

Pour les utilisateurs d’EMR sans serveur, la configuration la plus simple consiste à créer votre application dans l’interface utilisateur de Studio sans modifier les paramètres par défaut de l’option Cloud privé virtuel (VPC). Cette approche permet de créer l’application au sein du VPC de votre domaine SageMaker, éliminant ainsi le besoin d’une configuration réseau supplémentaire. Si vous choisissez cette option, vous pouvez ignorer la section suivante de configuration de la mise en réseau.

Les instructions de mise en réseau varient selon que Studio et Amazon EMR sont déployés au sein d’un réseau cloud privé virtuel (VPC) Amazon privé ou communiquent via Internet.

Par défaut, Studio ou Studio Classic s’exécute dans un VPC géré par AWS avec un accès Internet. Lorsque vous utilisez une connexion Internet, Studio et Studio Classic accèdent à des ressources AWS, telles que les compartiments Amazon S3, via Internet. Toutefois, si vous avez des exigences de sécurité pour contrôler l’accès à vos données et à vos conteneurs de tâches, nous vous recommandons de configurer Studio ou Studio Classic et Amazon EMR afin que vos données et vos conteneurs ne soient pas accessibles via Internet. Pour contrôler l’accès à vos ressources ou exécuter Studio ou Studio Classic sans accès Internet public, vous pouvez spécifier le type d’accès au réseau VPC only lorsque vous intégrez le domaine Amazon SageMaker AI. Dans ce scénario, Studio et Studio Classic établissent des connexions avec d’autres services AWS via des points de terminaison de VPC privés. Pour en savoir plus sur la configuration de Studio ou de Studio Classic en mode VPC only, consultez Connexion de blocs-notes SageMaker Studio ou Studio Classic dans un VPC à des ressources externes.

Les deux premières sections expliquent comment garantir la communication entre Studio ou Studio Classic et Amazon EMR dans des VPC sans accès public à Internet. La dernière section explique comment garantir la communication entre Studio ou Studio Classic et Amazon EMR à l’aide d’une connexion Internet. Avant de connecter Studio ou Studio Classic et Amazon EMR sans accès à Internet, veillez à établir des points de terminaison pour Amazon Simple Storage Service (stockage de données), Amazon CloudWatch (journalisation et surveillance) et l’environnement d’exécution Amazon SageMaker (contrôle d’accès détaillé basé sur les rôles (RBAC)).

Pour connecter Studio ou Studio Classic et Amazon EMR :

Studio et Amazon EMR sont dans des VPC différents

Afin d’autoriser la communication entre Studio ou Studio Classic et Amazon EMR lorsqu’ils sont déployés dans différents VPC :

  1. Commencez par connecter vos VPC via une connexion d’appairage de VPC.

  2. Mettez à jour vos tables de routage dans chaque VPC pour router le trafic réseau entre les sous-réseaux Studio ou Studio Classic et les sous-réseaux Amazon EMR dans les deux sens.

  3. Configurez vos groupes de sécurité pour autoriser le trafic entrant et sortant.

Les étapes pour connecter Studio ou Studio Classic et Amazon EMR sont les mêmes, que les ressources soient déployées dans un seul compte AWS (cas d’utilisation d’un seul compte) ou sur plusieurs comptes AWS (cas d’utilisation entre comptes).

  1. Appairage de VPC

    Créez une connexion d’appairage de VPC pour faciliter la mise en réseau entre les deux VPC (Studio ou Studio Classic et Amazon EMR).

    1. Depuis votre compte Studio ou Studio Classic, sur le tableau de bord VPC, choisissez Connexions d’appairage, puis Créer une connexion d’appairage.

    2. Créez votre demande pour appairer le VPC Studio ou Studio Classic avec le VPC Amazon EMR. Lorsque vous demandez l’appairage dans un autre compte AWS, choisissez Un autre compte dans Sélectionner un autre VPC auquel s’appairer.

      Pour l’appairage entre comptes, l’administrateur doit accepter la demande émanant du compte Amazon EMR.

      Lors de l’appairage de sous-réseaux privés, vous devez activer la résolution DNS IP privée au niveau de la connexion d’appairage de VPC.

  2. Tables de routage

    Envoyez le trafic réseau entre les sous-réseaux Studio ou Studio Classic et les sous-réseaux Amazon EMR dans les deux sens.

    Une fois que vous avez établi la connexion d’appairage, l’administrateur (sur chaque compte pour un accès intercompte) peut ajouter des routes aux tables de routage des sous-réseaux privés pour router le trafic entre Studio ou Studio Classic et les sous-réseaux Amazon EMR. Vous pouvez définir ces routes en accédant à la section Tables de routage de chaque VPC dans le tableau de bord du VPC.

    L’illustration suivante de la table de routage d’un sous-réseau de VPC Studio montre un exemple de route sortante du compte Studio vers la plage d’adresses IP du VPC Amazon EMR (ici 2.0.1.0/24) via la connexion d’appairage.

    La table de routage d’un sous-réseau de VPC Studio montre des routes sortantes entre le compte Studio et la plage d’adresses IP du VPC Amazon EMR (ici 2.0.1.0/24) via la connexion d’appairage.

    L’illustration suivante de la table de routage d’un sous-réseau de VPC Amazon EMR montre un exemple de route de retour entre le VPC Amazon EMR et la plage d’adresses IP du VPC Studio (ici 10.0.20.0/24) via la connexion d’appairage.

    Table de routage d’un sous-réseau de VPC Amazon EMR indiquant les routes de retour depuis le compte Amazon EMR vers la plage d’adresses IP du VPC Studio (ici 10.0.20.0/24) via la connexion d’appairage
  3. Groupes de sécurité

    Enfin, le groupe de sécurité de votre domaine Studio ou Studio Classic doit autoriser le trafic sortant, et le groupe de sécurité du nœud primaire Amazon EMR doit autoriser le trafic entrant sur les ports TCP Apache Livy, Hive ou Presto (respectivement 8998, 10000 et 8889) depuis le groupe de sécurité d’instance Studio ou Studio Classic. Apache Livy est un service qui permet d’interagir avec Amazon EMR via une interface REST.

Le diagramme suivant montre un exemple de configuration d’un réseau Amazon VPC qui permet aux blocs-notes JupyterLab ou Studio Classic de provisionner des clusters Amazon EMR depuis des modèles CloudFormation dans Service Catalog, puis de se connecter à un cluster Amazon EMR au sein du même compte AWS. Le schéma fournit une illustration supplémentaire des points de terminaison requis pour une connexion directe à divers services AWS, tels qu’Amazon S3 ou Amazon CloudWatch, lorsque les VPC n’ont pas accès à Internet. Une passerelle NAT doit également être utilisée pour permettre aux instances des sous-réseaux privés de plusieurs VPC de partager une seule adresse IP publique fournie par la passerelle Internet lors de l’accès à Internet.

Schéma architectural illustrant un exemple de configuration d’un réseau Amazon VPC simple qui permet aux blocs-notes Studio ou Studio Classic de provisionner des clusters Amazon EMR depuis des modèles CloudFormation dans Service Catalog, puis de se connecter à un cluster Amazon EMR au sein du même compte AWS. Le schéma fournit une illustration supplémentaire des points de terminaison requis pour une connexion directe à divers services AWS, tels qu’Amazon S3 ou Amazon CloudWatch, lorsque les VPC n’ont pas accès à Internet. Une passerelle NAT doit également être utilisée pour permettre aux instances des sous-réseaux privés de plusieurs VPC de partager une seule adresse IP publique fournie par la passerelle Internet lors de l’accès à Internet.

Studio et Amazon EMR sont dans le même VPC

Si Studio ou Studio Classic et Amazon EMR se trouvent dans des sous-réseaux différents, ajoutez des routes à la table de routage de chaque sous-réseau privé pour router le trafic entre Studio ou Studio Classic et les sous-réseaux Amazon EMR. Vous pouvez définir ces routes en accédant à la section Tables de routage de chaque VPC dans le tableau de bord du VPC. Si vous avez déployé Studio ou Studio Classic et Amazon EMR dans le même VPC et le même sous-réseau, vous n’avez pas besoin de router le trafic entre Studio et Amazon EMR.

Que vous deviez ou non mettre à jour vos tables de routage, le groupe de sécurité de votre domaine Studio ou Studio Classic doit autoriser le trafic sortant et le groupe de sécurité du nœud primaire Amazon EMR doit autoriser le trafic entrant sur les ports TCP Apache Livy, Hive ou Presto (respectivement 8998, 10000 et 8889) depuis le groupe de sécurité d’instance Studio ou Studio Classic. Apache Livy est un service qui permet d’interagir avec Amazon EMR via une interface REST.

Studio et Amazon EMR communiquent via l’Internet public

Par défaut, Studio et Studio Classic fournissent une interface réseau qui permet de communiquer avec Internet via une passerelle Internet dans le VPC associé au domaine SageMaker. Si vous choisissez de vous connecter à Amazon EMR via le réseau Internet public, Amazon EMR doit accepter le trafic entrant sur les ports TCP Apache Livy, Hive ou Presto (respectivement 8998, 10000 et 8889) depuis sa passerelle Internet. Apache Livy est un service qui permet d’interagir avec Amazon EMR via une interface REST.

Gardez à l’esprit que tout port sur lequel vous autorisez le trafic entrant représente une vulnérabilité de sécurité potentielle. Vérifiez attentivement les groupes de sécurité personnalisés pour vous assurer de réduire les failles de sécurité. Pour plus d'informations, consultez Contrôle du trafic réseau avec des groupes de sécurité.

Vous pouvez également consulter Blogs et livres blancs pour une présentation détaillée expliquant comment activer Kerberos sur Amazon EMR, configurer le cluster dans un sous-réseau privé et accéder au cluster à l’aide d’un Network Load Balancer (NLB) afin d’exposer uniquement des ports spécifiques, dont l’accès est contrôlé par des groupes de sécurité.

Note

Lorsque vous vous connectez à votre point de terminaison Apache Livy via le réseau Internet public, nous vous recommandons de sécuriser les communications entre Studio ou Studio Classic et votre cluster Amazon EMR à l’aide du protocole TLS.

Pour en savoir plus sur la configuration du protocole HTTPS avec Apache Livy, consultez Activation du protocole HTTPS avec Apache Livy. Pour en savoir plus sur la configuration d’un cluster Amazon EMR avec le chiffrement en transit activé, consultez Fourniture de certificats pour le chiffrement des données en transit avec le chiffrement Amazon EMR. En outre, vous devez configurer Studio ou Studio Classic pour accéder à votre clé de certificat comme indiqué dans Connexion à un cluster Amazon EMR via HTTPS.