Utilisation d’Apache Spark dans Amazon Athena - Amazon Athena

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utilisation d’Apache Spark dans Amazon Athena

Amazon Athena facilite l'exécution interactive de l'analyse et de l'exploration des données à l'aide d'Apache Spark sans qu'il soit nécessaire de planifier, de configurer ou de gérer les ressources. Exécuter des applications Apache Spark sur Athena signifie soumettre du code Spark pour traitement et recevoir directement les résultats sans avoir besoin de configuration supplémentaire. Apache Spark fonctionne sur Amazon Athena sans serveur et offre une mise à l'échelle automatique et à la demande qui permet d'obtenir un calcul instantané pour répondre à l'évolution des volumes de données et des exigences de traitement.

Dans la version finalePySpark version du moteur 3, vous pouvez utiliser l'expérience de bloc-notes simplifiée de la console Amazon Athena pour développer des applications Apache Spark à l'aide de Python ou d'Athena Notebook. APIs

Dans la version finaleApache Spark version 3.5, vous pouvez exécuter du code Spark à partir de blocs-notes Amazon SageMaker Unified Studio ou de vos clients compatibles Spark Connect préférés.

Amazon Athena offre les fonctionnalités suivantes :

  • Utilisation de la console — Soumettez vos applications Spark depuis la console Amazon Athena (version 3 de Pyspark Enginer uniquement).

  • Création de scripts – Créez et déboguez rapidement et de manière interactive des applications Apache Spark en Python.

  • Dimensionnement dynamique – Amazon Athena détermine automatiquement les ressources de calcul et de mémoire nécessaires à l'exécution d'une tâche et adapte en permanence ces ressources en conséquence jusqu'aux maximums que vous spécifiez. Ce dimensionnement dynamique réduit le coût sans affecter la vitesse.

  • Expérience avec les blocs-notes : utilisez les blocs-notes Amazon SageMaker AI Unified Studio pour créer, modifier et exécuter des calculs à l'aide d'une interface familière. Dans la version 3 du moteur Pyspark, vous pouvez utiliser les blocs-notes intégrés à la console Athena compatibles avec les ordinateurs portables Jupyter et contenant une liste de cellules exécutées dans l'ordre sous forme de calculs. Le contenu des cellules peut inclure du code, du texte, du Markdown, des mathématiques, des diagrammes et des médias enrichis.

Pour plus d’informations, consultez les articles Run Spark SQL on Amazon Athena Spark et Explore your data lake using Amazon Athena for Apache Spark sur le blog AWS  Big Data Blog.