Datenaufbereitung mithilfe AWS Glue interaktiver Sitzungen
AWS GlueInteractive Sessions ist ein serverloser Service, den Sie nutzen können, um Daten zu sammeln, zu transformieren, zu bereinigen und für die Speicherung in Ihren Data Lakes und Daten-Pipelines vorzubereiten. AWS GlueInteractive Sessions bietet eine serverlose Apache Spark-Laufzeitumgebung auf Abruf, die Sie in Sekundenschnelle auf einer dedizierten Datenverarbeitungseinheit (DPU) initialisieren können, ohne eine komplexe Rechencluster-Infrastruktur bereitstellen und verwalten zu müssen. Nach der Initialisierung können Sie in Ihrem Studio- oder Studio-Classic-Notebook schnell den AWS Glue-Datenkatalog durchsuchen, umfangreiche Abfragen ausführen, auf Daten zugreifen, die von AWS Lake Formation gesteuert werden, und Daten mit Spark interaktiv analysieren und aufbereiten. Anschließend können Sie die vorbereiteten Daten verwenden, um Modelle mithilfe der speziell entwickelten ML-Tools in SageMaker Studio oder Studio Classic zu trainieren, zu optimieren und bereitzustellen. Sie sollten AWS Glue Interactive Sessions für Ihre Datenvorbereitungs-Workloads in Betracht ziehen, wenn Sie einen serverlosen Spark-Service mit moderater Kontrolle über Konfigurierbarkeit und Flexibilität wünschen.
Sie können eine interaktive AWS Glue-Sitzung starten, indem Sie ein JupyterLab-Notebook in Studio oder Studio Classic starten. Wählen Sie beim Starten Ihres Notebooks den integrierten Glue
PySpark and Ray- oder Glue Spark-Kernel. Dadurch wird automatisch eine interaktive, serverless Spark-Sitzung gestartet. Sie müssen keinen Rechencluster oder keine Infrastruktur bereitstellen oder verwalten. Nach der Initialisierung können Sie Ihre Daten von Ihren Studio- oder Studio Classic-Notebooks aus untersuchen und mit ihnen interagieren.
Bevor Sie Ihre interaktive AWS Glue-Sitzung in Studio oder Studio Classic starten, müssen Sie die entsprechenden Rollen und Richtlinien festlegen. Darüber hinaus müssen Sie möglicherweise Zugriff auf zusätzliche Ressourcen bereitstellen, wie z. B. einen Amazon S3-Speicherbucket. Weitere Informationen über erforderliche IAM-Richtlinien finden Sie unter Berechtigungen für AWS Glue interaktive Sitzungen in Studio oder Studio Classic.
Studio und Studio Classic bietet eine Standardkonfiguration für Ihre interaktive AWS Glue-Sitzung. Sie können jedoch den vollständigen Katalog der magischen Jupyter-Befehle von AWS Glue verwenden, um Ihre Umgebung weiter anzupassen. Informationen zu den standardmäßigen und zusätzlichen Jupyter-Magics, die Sie in Ihrer AWS Glue interaktiven Sitzung verwenden können, finden Sie unter Konfigurieren Sie Ihre AWS Glue interaktive Sitzung in Studio oder Studio Classic.
-
Studio Classic-Benutzer, die eine AWS Glue interaktive Sitzung initiieren, können aus den folgenden Bildern und Kerneln wählen:
-
Images:
SparkAnalytics 1.0,SparkAnalytics 2.0 -
Kernel: und
Glue Python [PySpark and Ray]Glue Spark
-
-
Verwenden Sie für Studio-Benutzer das standardmäßige SageMaker-Distribution-Image
und wählen Sie einen Glue Python [PySpark and Ray]oder einenGlue SparkKernel aus.