Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Apache Spark
<a name="emr-spark"></a>

[Apache Spark](https://aws.amazon.com/emr/features/spark/) est un modèle distribué de programmation et d'infrastructure qui vous permet d'effectuer des opérations de machine learning, de traitement de flux ou d'analyse graphique avec les clusters Amazon EMR. De manière analogue à Apache Hadoop, Spark est un système de traitement distribué open source, couramment utilisé pour les charges de travail de big data. Cependant, Spark présente plusieurs différences notables par rapport à Hadoop MapReduce. Spark a un moteur d'exécution optimisé de graphes acycliques dirigés (DAG) et met en cache de façon active les données en mémoire, ce qui peut améliorer les performances, notamment pour certains algorithmes et requêtes interactives.

De manière native, Spark prend en charge les applications écrites en Scala, python ou Java. Il inclut également plusieurs bibliothèques étroitement intégrées pour SQL ([Spark](https://spark.apache.org/sql/)), l'apprentissage automatique ([MLLib](https://spark.apache.org/mllib/)), le traitement de flux ([Spark streaming](https://spark.apache.org/streaming/)) et le traitement de graphes ([GraphX](https://spark.apache.org/graphx/)). Ces outils facilitent l'exploitation de l'infrastructure Spark pour une grande variété de cas d'utilisation. 

Vous pouvez installer Spark sur un cluster Amazon EMR avec d’autres applications Hadoop. Cette solution peut également exploiter le système de fichiers Amazon EMR (EMRFS) pour accéder directement aux données dans Amazon S3. Hive est également intégré à Spark afin que vous puissiez utiliser un HiveContext objet pour exécuter des scripts Hive à l'aide de Spark. Un contexte Hive est inclus dans le shell de Spark en tant que `sqlContext`. 

Pour un exemple de didacticiel sur la configuration d'un cluster EMR avec Spark et sur l'analyse d'un exemple de jeu de données, consultez [Tutoriel : Getting started with Amazon EMR sur le blog News.](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-gs.html) AWS 

Vous pouvez utiliser l'agent de dépannage Apache Spark pour dépanner vos applications Apache Spark sur EMR sur EC2 et EMR Serverless. Pour en savoir plus, veuillez consulter[Qu'est-ce que l'agent de résolution des problèmes Apache Spark pour Amazon EMR](spark-troubleshoot.md).

**Important**  
Apache Spark version 2.3.1, disponible à partir de la version 5.16.0 d'Amazon EMR, adresses et. [CVE-2018-8024[CVE-2018-1334](https://nvd.nist.gov/vuln/detail/CVE-2018-1334)](https://nvd.nist.gov/vuln/detail/CVE-2018-8024) Nous vous recommandons de migrer les versions antérieures de Spark vers la version 2.3.1 ou ultérieure.

Le tableau suivant répertorie la version de Spark incluse dans la dernière version d’Amazon EMR série 7.x, ainsi que les composants qu’Amazon EMR installe avec Spark.

Pour connaître la version des composants installés avec Spark dans cette version, consultez la [version 7.13.0 Versions des composants](emr-7130-release.md).


**Informations sur la version de Spark pour emr-7.13.0**  

| Étiquette de version Amazon EMR | Version de Spark | Composants installés avec Spark | 
| --- | --- | --- | 
| emr-7,13.0 | Spark 3.5.6-amzn-2 | delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-hdfs-zkfc, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave | 

Le tableau suivant répertorie la version de Spark incluse dans la dernière version d'Amazon EMR série 6.x, ainsi que les composants qu'Amazon EMR installe avec Spark.

Pour connaître la version des composants installés avec Spark dans cette version, consultez la rubrique [Versions des composants de la version 6.15.0](emr-6150-release.md).


**Informations sur la version de Spark pour emr-6.15.0**  

| Étiquette de version Amazon EMR | Version de Spark | Composants installés avec Spark | 
| --- | --- | --- | 
| emr-6.15.0 | Spark 3.4.1-amzn-2 | aws-sagemaker-spark-sdk, delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave | 

**Note**  
La version 6.8.0 d'Amazon EMR est fournie avec la version 3.3.0 d'Apache Spark. Cette version de Spark utilise Apache Log4j 2 et le fichier `log4j2.properties` pour configurer Log4j dans les processus Spark. Si vous utilisez Spark dans le cluster ou si vous créez des clusters EMR avec des paramètres de configuration personnalisés, et que vous voulez passer à la version 6.8.0 d'Amazon EMR, vous devez migrer vers la nouvelle classification de configuration `spark-log4j2` et le nouveau format de clé pour Apache Log4j 2. Pour de plus amples informations, veuillez consulter [Migration d'Apache Log4j 1.x vers Log4j 2.x](emr-spark-configure.md#spark-migrate-logj42).

Le tableau suivant répertorie la version de Spark incluse dans la dernière version d'Amazon EMR série 5.x, ainsi que les composants qu'Amazon EMR installe avec Spark.

Pour la version des composants installés avec Spark dans cette version, consultez la [version 5.36.2 Versions des composants](emr-5362-release.md).


**Informations sur la version de Spark pour emr-5.36.2**  

| Étiquette de version Amazon EMR | Version de Spark | Composants installés avec Spark | 
| --- | --- | --- | 
| emr-5.36.2 | Spark 2.4.8-amzn-2 | aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave | 

**Topics**
+ [Création d’un cluster avec Apache Spark](emr-spark-launch.md)
+ [Exécution d’applications Spark avec Docker sur Amazon EMR 6.x](emr-spark-docker.md)
+ [Utiliser le catalogue de données AWS Glue avec Spark sur Amazon EMR](emr-spark-glue.md)
+ [Utilisation d'une hiérarchie de plusieurs catalogues dans AWS Glue Data Catalog avec Spark sur Amazon EMR](emr-multi-catalog.md)
+ [Configuration de Spark](emr-spark-configure.md)
+ [Qu'est-ce que l'agent de résolution des problèmes Apache Spark pour Amazon EMR](spark-troubleshoot.md)
+ [Optimisation des performances de Spark](emr-spark-performance.md)
+ [Mise en cache des fragments de résultats Spark](emr-spark-fragment-result-caching.md)
+ [Utilisation de l’accélérateur Nvidia RAPIDS pour Apache Spark](emr-spark-rapids.md)
+ [Accès au shell de Spark](emr-spark-shell.md)
+ [Utiliser Amazon SageMaker Spark pour le machine learning](emr-spark-sagemaker.md)
+ [Ecriture d'une application Spark](emr-spark-application.md)
+ [Améliorer les performances de Spark avec Amazon S3](emr-spark-s3-performance.md)
+ [Ajout d'une étape Spark](emr-spark-submit-step.md)
+ [Afficher l'historique de l'application Spark](emr-spark-application-history.md)
+ [Accès aux interfaces utilisateur web de Spark](emr-spark-webui.md)
+ [Utilisation du connecteur Amazon Kinesis Data Streams pour le streaming structuré Spark](emr-spark-structured-streaming-kinesis.md)
+ [Utilisation de l'intégration d'Amazon Redshift pour Apache Spark avec Amazon EMR](emr-spark-redshift.md)
+ [Historique des versions de Spark](Spark-release-history.md)
+ [Utilisation de vues matérialisées avec Amazon EMR](emr-spark-materialized-views.md)