Préparation des données à l’aide d’EMR sans serveur
À partir de l’image de distribution SageMaker version 1.10, Amazon SageMaker Studio s’intègre avec EMR sans serveur. Dans les blocs-notes JupyterLab de SageMaker Studio, les scientifiques des données et les ingénieurs de données peuvent découvrir des applications EMR sans serveur et s’y connecter, puis explorer, visualiser et préparer de manière interactive des charges de travail Apache Spark ou Apache Hive à grande échelle. Cette intégration permet d’effectuer un prétraitement interactif des données à grande échelle en préparation de l’entraînement et du déploiement du modèle ML.
Plus précisément, la version mise à jour de sagemaker-studio-analytics-extension1.10 tire parti de l’intégration entre Apache Livy et EMR sans serveur, permettant la connexion à un point de terminaison Apache Livy via les blocs-notes JupyterLab. Cette section suppose une connaissance préalable des applications interactives EMR sans serveur.
Important
Lorsque vous utilisez Studio, vous pouvez uniquement découvrir les applications EMR sans serveur et vous y connecter pour les applications JupyterLab lancées depuis des espaces privés. Assurez-vous que les applications EMR sans serveur sont situées dans la même région AWS que votre environnement Studio.
Prérequis
Avant de démarrer l’exécution de charges de travail interactives avec EMR sans serveur depuis vos blocs-notes JupyterLab, assurez-vous de répondre aux conditions préalables suivantes :
-
Votre espace JupyterLab doit utiliser une image de distribution SageMaker version
1.10ou supérieure. -
Créez une application interactive EMR sans serveur avec Amazon EMR version
6.14.0ou supérieure. Vous pouvez créer une application EMR sans serveur à partir de l’interface utilisateur de Studio en suivant les étapes décrites dans Création d’applications EMR sans serveur depuis Studio.Note
Pour simplifier la configuration, vous pouvez créer votre application EMR sans serveur dans l’interface utilisateur de Studio sans modifier les paramètres par défaut de l’option Cloud privé virtuel (VPC). Cela permet de créer l’application au sein de votre VPC de domaine sans nécessiter de configuration réseau. Dans ce cas, vous pouvez ignorer l’étape de configuration de mise en réseau suivante.
-
Passez en revue les exigences de mise en réseau et de sécurité dans Configuration de l’accès réseau pour votre cluster Amazon EMR. En particulier, vérifiez que vous :
-
Établissez une connexion d’appairage de VPC entre votre compte Studio et votre compte EMR sans serveur.
-
Ajoutez des routes aux tables de routage des sous-réseaux privés dans les deux comptes.
-
Configurez le groupe de sécurité attaché à votre domaine Studio pour autoriser le trafic sortant et configurez le groupe de sécurité du VPC où vous envisagez d’exécuter les applications EMR sans serveur pour autoriser le trafic TCP entrant depuis le groupe de sécurité de l’instance Studio.
-
-
Pour accéder à vos applications interactives sur EMR sans serveur et exécuter des charges de travail soumises depuis vos blocs-notes JupyterLab dans SageMaker Studio, vous devez attribuer des autorisations et des rôles spécifiques. Reportez-vous à la section Configurez les autorisations pour activer l’établissement d’une liste et le lancement des applications Amazon EMR à partir de SageMaker Studio pour obtenir des détails sur les rôles et autorisations nécessaires.