Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
AWS runtime for Apache Spark(aperçu d'emr-spark-8.0)
Le tableau suivant répertorie les versions de l'application disponibles avec AWS runtime for Apache Spark (emr-spark-8.0-preview).
| Application | Version |
|---|---|
| Spark | 4.0.1-amzn-0 |
AWS runtime for Apache Sparknotes de mise à jour (emr-spark-8.0-preview)
-
Version préliminaire — Il s'agit d'une version préliminaire d'
AWS runtime for Apache SparkApache Spark 4.0.1. Cette version préliminaire est uniquement disponible sur EMR Serverless. -
Disponibilité régionale - Cette version préliminaire est disponible dans toutes les AWS régions où EMR Serverless est disponible, à l'exception de la Chine et des AWS GovCloud États-Unis.
-
Informations sur la version de l'application - Cette version est fournie avec les versions d'application suivantes :
-
AWS SDK pour Java 2.35.5, 1.12.792
-
Python 3.9, 3.11, 3.12
-
Scala 2.13.16
-
AmazonCloudWatchAgent 1.300034.0-amzn-0
-
Delta 4.0.0-amzn-0-spark
-
Iceberg 1.10.0-amzn-spark-0
-
Cette version est fournie par défaut avec Amazon Corretto 17 (basé sur OpenJDK) pour les applications compatibles avec Corretto 17 (JDK 17).
-
-
Limites de la version préliminaire - Les fonctionnalités suivantes ne sont pas disponibles dans cette version préliminaire :
-
Fonctionnalités interactives et d'intégration : SageMaker Unified Studio, intégration d'EMR Studio, Spark Connect, Livy, etc. JupyterEnterpriseGateway ne sont pas prises en charge.
-
Formats de table et contrôle d'accès : Hudi, Delta Universal Format et le contrôle d'accès détaillé (FGAC) avec filtrage et opérateurs au niveau des lignes ou des colonnes ne sont pas pris en charge. DDL/DML
-
Connecteurs de données : spark-sql-kinesis les connecteurs emr-dynamodb et spark-redshift ne sont pas disponibles.
-
Serveur d'historique : le serveur d'historique Spark persistant n'est pas disponible dans cette version préliminaire. Les utilisateurs peuvent toujours accéder à l'interface utilisateur en direct de Spark pour surveiller et déboguer les tâches sans serveur actives en temps réel.
-
Fonctionnalités spécialisées : Les vues matérialisées ne sont pas disponibles.
-
-
Fonctionnalités de prévisualisation : vous pouvez tester les fonctionnalités suivantes dans cette version préliminaire. Cette version préliminaire n'est pas recommandée pour les charges de travail de production :
-
Fonctionnalités SQL : mode ANSI SQL avec une gestion des types plus stricte, syntaxe SQL PIPE (|>) pour les opérations de chaînage, type de données VARIANT pour les données JSON semi-structurées, scripts SQL avec instructions de flux de contrôle et variables de session, et fonctions SQL définies par l'utilisateur.
-
Améliorations du streaming : API de traitement statique arbitraire v2 avec transformWithState opérateur, lecteur de source de données d'état pour un état de streaming interrogeable (expérimental) et magasin d'état amélioré avec point de contrôle amélioré du journal des modifications RockSDB.
-
Support du format de tableau : Apache Iceberg v3 avec prise en charge des types de données VARIANT, intégration des tables AWS S3 et accès complet aux tables (FTA) AWS Lake Formation pour les tables Iceberg, Delta Lake et Hive.
-
-
Documentation supplémentaire - Pour de la documentation supplémentaire sur Apache Spark, consultez la documentation de la version 4.0.1 d'Apache Spark
.
Démarrage
Pour commencer à utiliser la version préliminaire d'Apache Spark 4.0.1, créez une application EMR Serverless à l'aide de la CLI : AWS
aws emr-serverless create-application --type spark \ --release-label emr-spark-8.0-preview \ --region us-east-1 --name spark4-preview